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内 容 所 要 


Scrapy 是 使 用 Python 开发 的 一 个 快速 、 高 层次 的 屏幕 抓 取 和 Web 抓 
取 框 架 ， 用 于 抓 Web 站 点 并 从 页 面 中 提取 结构 化 的 数据 。 本 书 以 Scrapy 
1.0 版 本 为 基础 ， 讲 解 了 Scrapy 的 基础 知识 ， 以 及 如 何 使 用 Python 和 三 方 
API 提 取 、 整 理 数据 ， 以 满足 自己 的 需求 。 


本 书 共 11 章 ， 其 内 容 涵盖 了 Scrapy 基 础 知识 ， 理 解 HIML 和 XPath， 
安装 Scrapy 并 疏 取 一 个 网 站 ， 使 用 怜 虫 填充 数据 库 并 输出 到 移动 应 用 
中 ， 疏 虫 的 强大 功能 ， 将 疏 虫 部 署 到 Scrapinghub 云 服务 右 ，Scrapy 的 配 
置 与 管理 ，Scrapy 编 程 ， 管 道 秘诀 ， 理 解 Scrapy 性 能 ， 使 用 Scrapyd 与 实 
时 分 析 进 行 分 布 式 爬 取 。 本 书 附录 还 提供 了 各 种 必 备 软件 的 安装 与 故障 
排除 等 内 容 。 


本 书 适 合 软件 开发 人 员 、 数 据 科 学 家 ， 以 及 对 自然 语言 处 理 和 机 器 
学 习 感 兴趣 的 人 阅读 。 
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Dimitrios Kouzis-Loukas 作为 一 位 顶级 的 软件 开发 人 员 ， 已 经 拥有 
超过 15 年 的 经 验 。 同 时 ， 他 还 使 用 自己 掌握 的 知识 和 技能 ， 同 广大 读者 
讲授 如 何 编写 优秀 的 软件 。 


他 学 习 并 掌握 了 多 门 和 学 科 ， 包 括 数学 、 物 理学 以 及 微 电 子 学 。 他 对 
这 些 学 科 的 透彻 理解 ， 提 高 了 上 自 号 的 标准 ， 而 不 只 是 “实用 的 解决 方 
案 ”。 他 知道 真正 的 解决 方案 应 当 是 像 物 理学 规律 一 样 确 定 ， 像 ECC 内 
存 一 样 健壮 ， 像 数学 一 样 通用 。 








Dimitrios 目 前 正在 使 用 最 新 的 数据 中 心 技术 开发 低 延 迟 、 高 可 用 的 
分 布 式 系统 。 他 是 语言 无 关 论 者 ， 不 过 对 Python、C++ 和 Java 略 有 偏 
好 。 他 对 开源 软 便 件 有 着 坚定 的 信念 ， 他 和 希望 他 的 贡献 能 够 造福 于 各 个 
社区 和 全 人 类 。 





关于 审 稿 人 


Lazar Telebak 是 一 位 自由 的 Web 开 发 人 员 ， 专 注 于 使 用 Python 库 / 
框架 进行 网 络 爬 取 和 对 网 页 进行 索引 。 





他 主要 从 事 于 处 理 自动 化 和 网 站 扑 取 以 及 导出 数据 到 不 同 格式 ( 包 
括 CSV、JSON、XML 和 TXT) 和 数据 库 〈 如 MongoDB、SQLAlchemy 
和 Postgres) 的 项 目 。 





他 还 拥有 前 端 技 术 和 语言 的 经 验 ， 包 括 HTML、CSS、JS 和 
jQuery- 
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让 我 来 做 一 个 大 胆 的 猜测 。 下 面 的 两 个 故事 之 一 会 和 你 的 经 历 有 些 
相似 。 


你 与 Scrapy 的 第 一 次 相遇 是 在 网 上 搜索 类 似 “Web scraping 
Python” 的 内 容 时 。 你 快速 对 其 进行 了 浏览 ， 然 后 想 * 这 太 复 杂 了 吧 .…… 
我 只 需要 一 些 人 简单 的 东西 。” 接 下 来 ， 你 使 用 Requests 库 开发 了 一 个 
Python 脚本 ， 并 且 挣 扎 于 Beautiful Soup 中 ， 但 最 终 还 是 完成 了 很 酷 的 工 
作 。 它 有 些 慢 ， 所 以 你 让 它 整 夜 运 行 。 你 重新 局 动 了 几 次 ， 忽 略 了 一 些 
不 完整 的 链接 和 非 瑞 文字 符 ， 到 早上 的 时 候 ， 大 部 分 网 站 已 经 “骄傲 
地 ”存在 你 的 硬盘 中 了 。 然 而 难过 的 是 ， 不 知 什么 原因 ， 你 不 想 再 看 到 
自己 写 的 代码 。 当 你 下 一 次 再 想 抓 取 某 些 东西 时 ， 则 会 直接 前 往 
scrapy.org， 而 这 一 次 文档 给 了 你 很 好 的 印象 。 现 在 你 可 以 感受 到 Scrapy 
能 够 以 优雅 且 轻 松 的 方式 解决 了 你 面临 的 所 有 问题 ， 甚 至 还 考虑 到 了 你 
没有 想到 的 问题 。 你 不 会 再 回头 了 。 

















另 一 种 情况 是 ， 你 与 Scrapy 的 第 一 次 相遇 是 在 进行 网 络 爬 取 项 目的 
研究 时 。 你 需要 的 是 健壮 、 快 速 的 企业 级 应 用 ， 而 大 部 分 花哨 的 一 键 式 
网 络 爬 取 工 具 无 法 满足 需求 。 你 布 望 它 简单 ， 但 义 有 足够 的 灵活 性 ， 能 
够 让 你 为 不 同 源 定制 不 同 的 行为 ， 提 供 不 同 的 输出 类 型 ， 并 且 能 够 以 目 
动 化 的 形式 保证 24/7 可 靠 运行 。 提 供 谎 取 服 务 的 公司 似乎 太 贵 了 ， 你 筑 
得 使 用 开源 解决 方案 比 固定 供应 商 更 加 舒服 。 从 一 开始 ，Scrapy 融 像 一 
个 确定 的 顾家 。 











无 论 你 是 出 于 何 种 目的 选择 了 本 书 ， 我 都 很 高 兴 能 够 在 这 本 专注 于 
Scrapy 的 图 书 中 遇 到 你 。Scrapy 是 全 世界 爬虫 专家 的 秘密 。 他 们 知道 如 
何 使 用 它 以 节省 工作 时 间 ， 提 供出 色 的 性 能 ， 并 且 使 他 们 的 主机 费用 达 
到 最 低 限度 。 如 有 果 你 没有 太 多 经 验 ， 但 是 还 想 实 现 同样 的 结果 ， 那 么 很 
不 幸 的 是 ，Google 并 没有 能 够 帮 到 你 。 网 络 上 大 多 数 Scrapy 信 息 要 么 太 
简单 低 效 ， 要 么 太 复 杂 。 对 于 那些 想 要 了 解 如何 充 分 利用 Scrapy 找 到 准 
确 、 易 理解 且 组 织 恨 好 的 信息 的 人 们 来 说 ， 本 书 是 非常 有 必要 的 。 我 希 
望 本 书 能 够 帮助 Scrapy 社 区 进一步 发 展 ， 并 使 其 得 以 广泛 应 用 。 





本 书 内 容 


第 1 章 ，Scrapy 简 介 ， 介 绍 本 书 和 Scrapy， 可 以 让 你 对 该 框架 及 本 
书 剩余 部 分 有 一 个 明确 的 期 望 。 


第 2 章 ， 理 解 HIML 和 XPath ， 则 在 使 疏 虫 初学 者 能 够 快速 了 解 
Web 相 关 技 术 以 及 我 们 后 续 将 会 使 用 的 技巧 。 


BIR, MAA, ， 介 绍 了 如 何 安 装 Scrapy， 并 扑 取 一 个 网 站 。 我 
们 通过 向 你 展示 每 一 个 行动 背后 的 方法 和 思路 ， 逐 步 开 发 该 示例 。 学 习 
完 本 章 之 后 ， 你 将 能 够 肘 取 大 部 分 简单 的 网 站 。 

第 4 蔓 ， 从 Scrapy 到 移动 应 用 ， 展 示 了 如 何 使 用 我 们 的 爬虫 填充 数 
据 库 并 输出 给 移动 应 用 。 本 章 过 后 ， 你 将 清晰 地 认识 到 疏 虫 在 市 场 方面 
所 带 来 的 好 处 。 


第 5 章 ， 迅 速 的 爬虫 技巧 ， 展 示 了 更 强大 的 爬虫 功能 ， 包 括 登 录 、 
更 快速 地 抓 取 、 消 费 API 以 及 礁 取 UREL 列 表 。 


第 6 章 ， 部 署 到 Scrapinghub ， 展 示 了 如 何 将 爬虫 部 署 到 
Scrapinghub 的 云 服 务 嚣 中， 并 享受 其 带 来 的 可 用 性 、 易 部 昔 以 及 可 控 性 


等 特性 。 


第 7 章 ， 配 置 与 管理 ， 以 组 织 良好 的 表现 形式 介绍 了 大 量 的 Scrapy 
功能 ， 这 些 功 能 可 以 通过 Scrapy 配 置 局 用 或 调整 。 








第 8 章 ，Scrapy 编 程 ， 通 过 展示 如 何 使 用 底层 的 Twisted 引 擎 和 
Scrapy 染 构 对 其 功能 的 各 个 方面 进行 扩展 ， 将 我 们 的 知识 带 入 一 个 全 新 
Rak TF 





FIR, FEWR, ， 提 供 了 许多 示例 ， 在 这 里 我 们 修改 了 Scrapy 的 
一 些 功能 ， 在 不 会 造成 性 能 退化 的 情况 下 ， 将 数据 插入 到 数据 库 〈 比 如 
MySQL、Elasticsearch 及 Redis) 、 接 口 API， 以 及 遗留 应 用 中 。 


第 10 章 ， 理 解 Scrapy 性 能 ， 将 帮助 我 们 理解 Scrapy 的 时 间 是 如 何 花 
费 的 ， 以 及 我 们 需要 怎么 做 来 提升 其 性 能 





第 11 章 ， 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 擒 取 ， 这 是 本 书 最 后 
一 革 ， 展 示 了 如 何在 多 台 服 务 器 中 使 用 Scrapyd 实 现 横 回 扩 展 ， 以 及 如 
何 将 爬 取得 到 的 数据 提供 给 Apache Spark 服 务 器 以 执行 数据 流 分 析 。 





阅读 本 书 的 前 所 


为 了 使 本 书 代 码 和 内 容 的 受众 尽 可 能 广泛 ， 我 们 付出 了 大 量 的 努 
力 。 我 们 希望 提供 涉及 多 服务 器 和 数据 库 的 有 趣 示 例 ， 不 过 我 们 并 不 硕 
望 你 必须 完全 了 解 如 何 创建 它们 。 我 们 使 用 了 一 个 称 为 Vagrant 的 伟大 





技术 ， 用 于 在 你 的 计算 机 中 上 自动 下 载 和 创建 一 次 性 的 多 服务 器 环境 。 我 
们 的 Vagrant 配 置 在 Mac OS X 和 Windows 上 时 使 用 了 虚拟 机 ， 而 在 Linux 
上 则 是 原生 运行 。 


对 于 Windows 和 Mac OS X， 你 需要 一 个 文 持 Intel] 或 AMD 虚 拟 化 技 
术 (VT-x 或 AMD-v) 的 64 位 计算 机 。 大 多 数 现代 计算 机 都 没有 问题 。 
对 于 大 部 分 章节 来 说 ， 你 还 需要 专门 为 虚拟 机 准备 1GB 内 存 ， 不 过 在 第 
9 章 和 第 11 章 中 则 需要 2GB 内 存 。 附 录 A 讲 解 了 安装 必要 软件 的 所 有 细 


su 


Ha 








Scrapy 本 喘 对 人 硬件 和 软件 的 需求 更 加 有 限 。 如 果 你 是 一 位 有 经 验 的 
读者 ， 并 且 不 想 使 用 Vagrant， 也 可 以 根据 第 3 章 的 内 容 在 任何 操作 系 
统 中 安装 Scrapy， 即 使 其 内 存 十 分 有 限 。 


当 你 成 功 创建 Vagrant 环 境 后 ， 无 需 网 络 连接 ， 就 可 以 运行 本 书 几 
平 全 部 示例 了 (第 4 章 和 第 6 章 的 示例 除外 ) 。 是 的 ， 你 可 以 在 航班 上 阅 
读本 书 了 。 


APRA 


ARARE REM IZ INE. Epean BOGE: 











需要 源 数 据 驱 动 应 用 的 互联 网 创业 者 ; 
者 ; 


需要 抽取 数据 进行 分 析 或 训练 模型 的 数据 科学 家 与 机 器 学 习 从 业 
想 


开发 大 规模 爬虫 基础 架构 的 软件 工程 师 ; 


JE 
要 
。 想 要 为 其 下 一 个 很 酪 的 项 目 在 树 符 派 上 运行 Scrapy 的 爱好 者 。 


就 必 备 知识 而 言 ， 阅 读本 书 只 需要 用 到 很 少 的 部 分 。 在 最 开始 的 几 
半 中 ， 本 书 为 那些 几乎 没有 疏 虫 经 验 的 读者 提供 了 网 络 技术 和 扑 虫 的 基 
础 知识 。Python 易 于 阅读 ， 对 于 有 其 他 编程 语言 基本 经 验 的 任何 读者 来 
说 ， 与 仆 忠 相关 的 半 市 中 给 出 的 大 部 分 代码 都 很 易于 理解 。 














坦率 地 说 ， 我 相信 如 果 一 个 人 在 心中 有 一 个 项 目 ， 并 且 想 使 用 
Scrapy 的 话 ， 他 就 能 够 修改 本 书 中 的 示例 代码 ， 并 在 几 个 小 时 之 内 良好 
地 运行 起 来 ， 即 使 这 个 人 之 前 没有 压 虫 、Scrapy 或 Python 经 验 。 


在 本 书 的 后 半 部 分 中 ， 我 们 将 变 得 更 加 依赖 于 Python， 此 时 初学 者 
可 能 希望 在 进一步 研究 之 前 ， 先 让 自己 用 几 个 星期 的 时 间 直 宣 Scrapy 的 
基础 经 验 。 此 时 ， 更 有 经 验 的 Python/Scrapy 开 发 者 将 学 习 使 用 Twisted 进 
行事 件 驱 动 的 Python 开 发 ， 以 及 非常 有 趣 的 Scrapy 内 部 知识 。 在 性 能 章 
节 ， 一 些 数学 知识 可 能 会 有 用 处 ， 不 过 即使 没有 ， 大 多 数 图 表 也 能 给 我 
们 清晰 的 感受 。 


第 1 半 ”Scrapy 人 简介 


欢迎 来 到 你 的 Scrapy 之 旅 。 通 过 本 书 ， 我 们 由 在 将 你 从 一 个 只 有 很 
少 经 验 甚至 没有 经 验 的 Scrapy 初 学 者 ， 打 造成 拥有 信心 使 用 这 个 强大 的 
框架 从 网 络 或 者 其 他 源 爬 取 大 数据 集 的 Scrapy 专 家 。 本 章 将 介绍 
Scrapy， 并 且 告 诉 你 一 些 可 以 用 和 它 实 现 的 很 棒 的 事情 。 


1.1 和 初 识 Scrapy 


Scrapy 是 一 个 健壮 的 网 络 框架 ， 它 可 以 从 各 种 数据 源 中 抓 取 数据 。 
作为 一 个 普通 的 网 络 用 户 ， 你 会 发 现 自己 经 常 需要 从 网 站 上 获取 数据 ， 
使 用 类 似 Excel 的 电子 表格 程序 进行 浏览 参见 第 3 章 ) ， 以 便 离线 访问 
数据 或 者 执行 计算 。 而 作为 一 个 开发 者 ， 你 需要 经 党 整合 多 个 数据 源 的 
数据 ， 但 又 十 分 清楚 获得 和 抽取 数据 的 复杂 性 。 无 论 难 易 ，Scrapy 都 可 
以 帮助 你 完成 数据 抽取 的 行动 。 








以 健壮 而 又 有 效 的 方式 抽取 大 量 数据 ，Scrapy 已 经 拥有 了 多 年 经 
验 。 使 用 Scrapy， 你 只 需 一 个 简单 的 设置 ， 就 能 完成 其 他 怜 虫 框架 中 需 
要 很 多 类 、 插 件 和 配置 项 才能 完成 的 工作 。 快 速 浏览 第 7 章 ， 你 就 能 体 
会 到 通过 简单 的 几 行 配置 ，Scrapy 可 以 实现 多 少 功能 。 


从 开发 者 的 角度 来 说 ， 你 也 会 十 分 欣赏 Scrapy 的 基于 事件 的 以 构 
(我 们 将 在 第 8 音 和 第 9 章 中 对 其 进行 深入 探讨 ) 。 它 允许 我 们 将 数据 请 
洗 、 格 式 化 、 闭 饰 以 及 将 这 些 数据 存储 到 数据 库 中 等 操作 级 联 起 来 ， 只 








要 我 们 操作 得 当 ， 人 性 能 降低 惑 会 很 小 。 在 本 书 中 ， 你 将 学 会 怎样 可 以 达 
到 这 一 目的 。 从 技术 上 讲 ， 由 于 Scrapy 是 基于 事件 的 ， 这 就 能 够 让 我 们 
在 拥有 上 千 个 打开 的 连接 时 ， 可 以 通过 平稳 的 操作 拆 分 吞吐 量 的 延迟 。 
来 看 这 样 一 个 极端 的 例子 ， 假 设 你 需要 从 一 个 拥有 汇总 页 的 网 站 中 抽取 
房 源 ， 其 中 每 个 汇总 页 包含 100 个 房 源 。Scrapy 可 以 非常 轻松 地 在 该 网 
站 中 并 行 执 行 16 个 请 求 ， 假 设 完 成 一 个 请 求 平均 需要 花费 1 秒 钟 的 时 
则 ， 你 可 以 每 秒 候 取 16 个 页 面 。 如 采 将 其 与 每 页 的 房 源 数 相 乘 ， 可 以 得 
出 每 秒 将 产生 1600 个 房 源 。 想 象 一 下 ， 如 果 每 个 房 源 都 必须 在 大 规模 并 
行 云 存 储 当 中 执行 一 次 写 入 ， 每 次 写 入 平均 需要 耗费 3 秒 钟 的 时 间 ( 非 
TARER) 。 为 了 文 持 每 秒 16 个 请 求 的 吞吐 量 ， 束 需要 我 们 并 行 运行 
1600 x 3 = 4800 次 写 入 请 求 〈 你 将 在 第 9 章 中 看 到 很 多 这 样 有 趣 的 计 

算 ) 。 对 于 一 个 传统 的 多 线程 应 用 而 言 ， 则 需要 转变 为 4800 个 线程 ， 无 
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Scrapy 的 世界 中 ， 只 要 操作 系统 没有 问题 ，4800 个 并 发 请 求 就 能 够 处 
理 。 此 外 ，Scrapy 的 内 存 需求 和 你 需要 的 房 源 数据 量 很 接近 ， 而 对 于 多 
线程 应 用 而 言 ， 则 需要 为 每 个 线程 增加 与 房 源 大 小 相 比 十 分 明显 的 开 
销 。 


























简 而 言 之 ， 绥 慢 或 不 可 预测 的 网 站 、 数 据 库 或 远程 API 都 不 会 对 
Scrapy 的 性 能 产生 毁灭 性 的 结果 ， 因 为 你 可 以 并 行 运行 多 个 请 求 ， 并 通 
过 单一 线程 来 管理 它们 。 这 意味 着 更 低 的 主机 托管 费用 ， 与 其 他 应 用 的 
协作 机 会 ， 以 及 相 比 于 传统 多 线程 应 用 而 言 更 简单 的 代码 (无 同步 需 
He) a 








1.2 ”喜欢 Scrapy 的 更 多 理由 


Scrapy 已 经 拥有 超过 5 年 的 历史 了 ， 成 熟 而 又 稳定 。 除 了 上 一 节 中 
提 到 的 性 能 优势 外 ， 还 有 下 面 这 些 能 够 让 你 爱 上 Scrapy 的 理由 。 


。 Scrapy 能 够 识别 残缺 的 HTML 


你 可 以 在 Scrapy 中 直接 使 用 Beautiful Soup 或 lIxml， 不 过 Scrapy 还 提 
供 了 一 种 在 lxml 之 上 更 高 级 的 XPath〈 主 要) 接口 
够 更 高 效 地 处 理 残 缺 的 HTML 代 码 和 混乱 的 编码 。 





selectors 。 它 能 


。 社区 


Scrapy 拥 有 一 个 充满 活力 的 社区 。 只 需要 看 看 https://groups. 
google.com/ forum/#!forum/scrapy-users 上 的 邮件 列表 ， 以 及 Stack 
Overflow 网 站 (http:// stackoverflow.com/questions/tagged/ scrapy) 中 的 
上 千 个 问题 就 可 以 知道 了 。 大 部 分 问题 都 能 够 在 几 分 钟 内 得 到 回应 。 更 
多 社区 资源 可 以 从 http://scrapy.org/ community/ 中 获取 到 。 


。 社区 维护 的 组 织 民 好 的 代码 


Scrapy 要 求 以 一 种 标准 方式 组 织 你 的 代码 。 你 只 需 编 写 被 称 为 候 虫 
和 管道 的 少量 Python 模块 ， 并 且 还 会 目 动 从 引擎 自身 获取 到 未 来 的 任何 
改进 。 如 果 你 在 网 上 搜索 ， 可 以 发 现 有 相当 多 专业 人 士 拥有 Scrapy 经 
验 。 也 就 是 说 ， 你 可 以 很 容易 地 找到 人 来 维护 或 扩展 你 的 代码 。 无 论 是 
谁 加 入 你 的 团队 ， 都 不 需要 漫长 的 学 习 曲 线 ， 来 理解 你 的 自 定 义 爬 虫 中 
的 特别 之 处 。 














© 越 来 越 多 的 高 质量 功能 


如 果 你 快速 浏览 发 布 日 志 (http://doc.scrapy.org/en/latest/ 
news.html) ， 就 会 注意 到 无 论 是 在 功能 上 ， 还 是 在 稳定 性 bug 修复 上 ， 
Scrapy 都 在 不 断 地 成 长 。 
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在 本 书 中 ， 我 们 的 目标 是 通过 重点 示例 和 真实 数据 集 教 你 使 用 
Scrapy。 大 部 分 章节 将 专注 于 候 取 一 个 示例 的 房屋 租赁 网 站 。 我 们 选择 
这 个 例子 ， 是 因为 它 能 够 代表 大 多 数 的 网 站 有 扑 取 项 目 ， 既 能 让 我 们 介绍 
感 兴趣 的 变动 ， 又 不 失 简 单 。 以 该 示例 为 主题 ， 可 以 帮助 我 们 聚焦 于 
Scrapy， 而 不 会 分 心 。 








我 们 将 从 只 运行 几 百 个 页 面 的 小 扑 虫 开始 ， 最 终 在 第 11 章 中 使 用 几 
分 钟 的 时 间 ， 将 其 扩展 为 能 够 处 理 5 万 个 页 面 的 分 布 式 人 息 虫 。 在 这 个 过 
程 中 ， 我 们 将 向 你 介绍 如 何 将 Scrapy 与 MySQL、Redis 和 Elasticsearch 等 
服务 相连 接 ， 使 用 Google 的 地 理 编码 API 找 到 我 们 示例 属性 中 的 位 置 坐 
标 ， 以 及 问 Apache Spark 提 供 数据 用 于 预测 最 影响 房价 的 关键 词 。 





你 需要 做 好 阅读 本 书 多 次 的 准备 。 你 可 能 需要 从 略 读 开始 ， 先 理解 
其 架构 。 然 后 阅读 一 到 两 章 ， 仔 细 学 习 、 实 验 一 段 时 间 ， 再 进入 后 面 的 
章节 。 如 果 你 觉得 上 自己 已 经 熟悉 了 茶 一 章 的 内 容 ， 那 么 跳 过 这 一 半 也 无 
需 担心 。 尤 其 是 如 果 你 已 经 了 解 HTML 和 XPath， 那 么 就 没有 必要 花费 
太 多 时 间 在 第 2 章 上 面 了 。 不 用 担心 ， 对 你 来 说 本 书 还 有 很 多 需要 学 习 
的 内 容 。 一 些 章节 ， 比 如 第 8 章 ， 将 参考 书 和 教程 的 元 素 结合 起 来 ， 深 
入 编程 概念 。 这 就 是 一 个 例子 ， 我 们 可 能 会 阅读 某 一 章 几 次 ， 在 这 中 间 
允许 我 们 有 几 个 星期 的 时 间 实 践 Scrapy。 你 在 继续 阅读 后 续 的 章节 ， 比 





























如 以 应 用 为 主 的 第 9 章 之 前 ， 不 需要 完美 掌握 第 8 章 中 的 内 容 。 阅 读 后 续 
的 内 容 ， 有 助 于 你 理解 如 何 使 用 编程 概念 ， 如 果 你 愿意 的 话 ， 可 以 回 过 
头 来 反复 阅读 几 次 。 





为 使 本 书 既 有 趣 ， 又 对 初学 者 友好 ， 我 们 已 经 试图 做 了 平衡 。 不 过 
我 们 不 会 做 的 一 件 事情 是 ， 在 本 书 中 教授 Python。 对 于 这 一 主题 ， 目 前 
己 经 有 了 很 多 优秀 的 书籍 ， 不 过 我 更 加 建议 的 是 以 一 种 轻松 的 心态 来 学 
习 。Python 如 此 流行 的 一 个 理由 是 因为 它 比较 人 简单、 整洁 ， 并 且 阅 读 起 
来 更 近似 于 英文 。Scrapy 是 一 个 高 级 框架 ， 无 论 是 初学 者 还 是 专家 ， 都 
需要 学 习 。 你 可 以 将 其 称 之 为 “Scrapy 语 言 "。 因 此 ， 我 会 推荐 你 通过 材 
料 来 学 习 Python， 如 果 你 发 觉 上 自己 对 于 Python 的 语法 比较 迷惑 ， 那 么 可 
以 通过 一 些 Python 的 在 线 教 程 或 Coursera 等 为 Python 初学 者 开设 的 免费 
在 线 课 程 了 予以 补充 。 请 放心 ， 即 使 你 不 是 Python 专家 ， 也 能 够 成 为 一 名 
优秀 的 Scrapy 开 发 者 。 








14 竺 握 目 动 化 数据 爬 取 的 重要 性 


对 于 大 多 数 人 来 说 ， 掌 握 一 门 像 Scrapy 这 样 很 酷 的 技术 所 带 来 的 好 
奇 心 和 精神 上 的 满足 ， 足 以 激励 我 们 。 令 人 惊喜 的 是 ， 在 学 习 这 个 优秀 
框架 的 同时 ， 我 们 还 能 享受 到 开发 过 程 始 于 数据 和 社区 ， 而 不 是 代码 所 
市 来 的 好 处 。 











1.4.1 开发 健壮 且 高 质量 的 应 用 ， 并 提供 合理 规划 


为 了 开发 现代 化 的 高 质量 应 用 ， 我 们 需要 真实 的 大 数据 集 ， 如 果 可 
能 的 话 ， 在 开始 动手 写 代 码 之 前 就 应 该 进行 这 一 步 。 现 代 化 软件 开发 就 


征 实时 处 理 大 量 不 完善 数据 ， 并 从 中 提取 出 知识 和 有 价值 的 情报 。 当 我 
们 开发 软件 并 应 用 于 大 数据 集 时 ， 一 些小 的 错误 和 玻 名 难以 家 检测 出 
来 ， 就 有 可 能 导致 昂贵 的 错误 决策 。 比 如 ， 在 做 人 口 统计 学 研究 时 ， 很 
容易 发 生 仅仅 是 由 于 州 名 过 长 导致 数据 被 默认 丢 痉 ， 造 成 整个 州 的 数据 
被 忽视 的 错误 。 在 开发 阶段 ， 甚 至 更 早 的 设计 探索 阶段 ， 通 过 细心 抓 
取 ， 并 使 用 具有 生产 质量 的 真实 世界 大 数据 集 ， 可 以 帮助 我 们 发 现 和 修 
复 错误 ， 做 出 明智 的 工程 决策 。 








另外 一 个 例子 是 ， 假 设 你 想 要 设计 Amazon 风 格 的 “如 果 你 喜欢 这 个 
商品 ， 也 可 能 喜欢 那个 商品 ?的 推荐 系统 。 如 果 你 能 够 在 开始 之 前 ， 先 
息 取 并 收集 真实 世界 的 数据 集 ， 就 会 很 快意 识 到 有 关 无 效 条 目 、 停 产 商 
品 、 重 复 、 无 效 字符 以 及 偶 态 分 布 引起 的 性 能 瓶 球 等 问题 。 这 些 数据 将 
会 强迫 你 设计 足够 健壮 的 算法 ， 无 论 是 数 千 人 购买 过 的 商品 ， 还 是 零 销 
售 量 的 新 条 目 ， 都 能 够 很 好 地 处 理 。 而 扳 立 的 软件 开发 ， 可 能 会 在 几 个 
星期 的 开发 之 后 ， 也 要 面 对 这 些 丑 陋 的 真实 世界 数据 。 虽 然 这 两 种 方法 
最 终 可 能 会 收敛 ， 但 是 为 你 提供 进度 预 估 承 话 的 能 力 以 及 软件 的 质量 ， 
都 将 随 着 项 目 进展 而 产生 显著 差别 。 从 数据 开始 ， 能 够 带 给 我 们 更 加 恰 
悦 并 且 可 预测 的 软件 开发 体验 。 




















1.4.2 ”快速 开发 高 质量 最 小 可 行 产 品 





对 于 初创 公司 而 言 ， 大 规模 真实 数据 的 集 甚 至 更 加 必要 。 你 可 能 上 听 
说 过 “精益 创业 ”， 这 是 由 Eric Ries 创造 的 一 个 术语 ， 用 于 描述 类 似 技术 
初创 公司 这 样 极 端 不 确定 条 件 下 的 业务 发 展 过 程 。 访 框架 的 一 个 关键 概 
念 是 最 小 可 行 产品 (Minimum Viable Product, MVP ) ， 这 种 产品 只 
有 有 限 的 功能 ， 可 以 被 快速 开发 并 向 有 限 的 客户 及 布 ， 用 于 测试 反 啊 及 














验证 业务 假设 。 基 于 获得 的 反馈 ， 初 创 公司 可 能 会 选择 继续 更 进一步 的 
投资 ， 也 可 能 是 转向 其 他 更 有 前 景 的 方 问 。 








在 该 过 程 中 的 某 些 方面 ， 很 容易 忽视 与 数据 紧密 连接 的 问题 ， 这 正 
是 Scrapy 所 能 为 我 们 做 的 部 分 。 比 如 ， 当 邀请 潜在 的 客户 尝试 使 用 我 们 
的 手机 应 用 时 ， 作 为 开发 者 或 企业 主 ， 会 要 求 他 们 评判 这 些 功能 ， 想 象 
应 用 在 完成 时 看 起 来 应 该 如 何 。 对 于 这 些 并 非 专家 的 人 而 言 ， 这 里 需要 
的 想象 有 可 能 太 多 了 。 这 个 差距 相当 于 一 个 应 用 只 展示 了 “产品 1”、“ 产 
品 2”“ 用 户 433”， 而 另 一 个 应 用 提供 了 “三 星 UN55J6200 55 英 寸 电视 
机 ”、 用 户 “Richard S” 给 出 了 五 星 好 评 以 及 能 够 让 你 直达 产品 详情 页 面 
(尽管 事实 上 我 们 还 没有 写 这 个 页 面 ) 的 有 效 链接 等 诸多 信息 。 人 们 很 
难 客观 判断 一 个 MVP 产 品 的 功能 性 ， 除 非 使 用 了 真实 且 令 人 兴奋 的 数 
据 。 











一 些 初创 企业 将 数据 作为 事后 考虑 的 原因 之 一 古 认为 收集 这 些 数据 
需要 郧 贵 的 代价 。 的 确 ， 我 们 通 冲 需要 开发 表单 及 管理 界面 ， 并 人 花费 时 
间 录 入 数据 ， 但 我 们 也 可 以 在 编写 代码 之 前 使 用 Scrapy 扑 取 一 些 网 站 。 
在 第 4 章 中 ， 你 可 以 看 到 一 旦 拥有 了 数据 ， 开 发 一 个 简单 的 手机 应 用 会 
有 多 么 容易 。 


1.4.3 Google 不 会 使 用 表单 ， 讨 取 才 能 扩大 规模 


当 谈 及 表单 时 ， 让 我 们 来 看 下 它 是 如 何 影响 产品 增长 的 。 想 象 一 
下 ， 如 果 Google 的 创始 人 在 创建 其 引擎 的 第 一 个 版 本 时 ， 包 含 了 一 个 每 
名 网 站 管理 员 都 需要 填写 的 表单 ， 要 求 他 们 把 网 站 中 每 一 页 的 文字 都 复 
制 粘贴 过 来 。 然 后 ， 他 们 需要 接受 许可 协议 ， 人 允许 Google 处 理 、 存 储 和 
展示 他 们 的 内 容 ， 并 剔除 大 部 分 广告 利润 。 你 能 想象 解释 该 想法 并 说 服 











人 们 参与 这 一 过 程 所 需 花 费 的 时 间 和 精力 会 有 多 大 吗 ? 即 使 市 场 非常 海 
望 一 个 优秀 的 搜索 引擎 (事实 正 是 如 此 )〉 ， 这 个 引擎 也 不 会 是 Google， 

因为 它 的 增长 过 于 绥 慢 。 即 使 是 最 复杂 的 算法 ， 也 不 能 弥补 数据 的 缺 

失 。Google 使 用 网 络 爬 虫 技术 ， 在 页 面 间 跳 转 链 接 ， 填 充 其 庞 大 的 数据 
库 。 网 站 管理 员 则 不 需要 做 任何 事情 。 实 际 上 ， 反 而 还 需要 一 些 努力 才 
能 阻止 Google 索 引 你 的 页 面 。 








虽然 Google 使 用 表单 的 想法 听 起 来 有 些 殉 请， 但 是 一 个 典型 的 网 站 
需要 用 户 填 写 多 少 表单 呢 ? 登录 表单 、 新 房 源 表单 、 结 账 表 单 ， 等 等 。 
这 些 表 单 中 有 多 少 会 阻碍 应 用 增长 呢 ? 如 果 你 充分 了 解 你 的 受众 / 客 
户 ， 很 可 能 已 经 拥有 关于 他 们 通常 使 用 并 且 很 可 能 已 经 有 账号 的 其 他 网 
站 的 线索 了 了。 比如 ， 一 个 开发 者 很 可 能 拥有 Stack Overflow 和 GitHub 的 
账号 。 那 么 ， 在 获得 他 们 允许 的 情况 下 ， 你 是 否 能 够 抓 取 这 些 站 点 ， 只 
需 他 们 提供 给 你 用 户 名 ， 就 能 自动 填充 照片 、 简 介 和 一 小 部 分 近期 文章 
呢 ? 你 能 否 对 他 们 最 感 兴趣 的 一 些 文 章 进行 快速 文本 分 析 ， 并 根据 其 调 
整 网 站 的 导航 结构 ， 以 及 建议 的 产品 和 服务 呢 ? 我 希望 你 能 够 看 到 如 何 
使 用 自动 化 数据 抓 取 车 代 表单 ， 从 而 更 好 地 服务 你 的 受众 ， 增 长 网 站 规 
模 。 


1.4.4 发 现 并 融入 你 的 生态 系统 


抓 取 数据 目 然 会 让 你 发 现 并 考虑 与 你 付出 相关 的 社区 的 关系 。 当 你 
抓 取 一 个 数据 源 时 ， 很 目 然 地 融会 产生 一 些 问题 : 我 是 否 相 信和 他 们 的 数 
据 ? 我 是 否 相 信和 获取 数据 的 公司 ? 我 是 否 需 要 和 他 们 沟通 以 获得 更 正式 
的 合作 ? 我 和 他 们 是 竞争 关系 还 是 合作 关系 ? 从 其 他 源 获 得 这 些 数据 会 
花费 我 多 少 钱 ? 无 论 如 何 ， 这 些 商 业 风 险 都 是 存在 的 ， 不 过 抓 取 过 程 可 














以 帮助 我 们 尽早 意识 到 这 些 风险 ， 并 制定 出 缓解 策略 。 


你 还 会 发 现 目 己 想 知道 能 够 为 这 些 网 站 和 社区 带 来 的 回馈 是 什么 。 
如 果 你 能 够 给 他 们 带 来 免费 的 流量 ， 他 们 应 该 会 很 蝇 兴 。 胃 一 方面 ， 如 
果 你 的 应 用 不 能 给 你 的 数据 源 带 来 一 些 价 值 ， 那 么 你 们 的 关系 可 能 会 很 
短暂 ， 除 非 你 与 他 们 沟通 ， 并 找到 合作 的 方式 。 通 过 从 不 同 源 获 取 数 

据 ， 你 需要 准备 好 开发 对 现 有 生态 系统 更 友好 的 产品 ， 充 分 章 重 已 有 的 
市 场 参与 者 ， 只 有 在 值得 努力 时 才 可 以 去 破坏 当前 的 市 场 秩序 。 现 有 的 
参与 者 也 可 能 会 帮助 你 成 长 得 更 快 ， 比 如 你 有 一 个 应 用 ， 使 用 两 到 三 个 
不 同 生 态 系统 的 数据 ， 每 个 生态 系统 有 10 万 个 用 户 ， 你 的 服务 可 能 最 终 
将 这 30 万 个 用 尸 以 一 种 创造 性 的 方式 连接 起 来 ， 从 而 使 每 个 生态 系统 都 
获 蔡 。 例 如 ， 你 成 并 了 一 个 初创 公司 ， 将 摇 深 乐 与 T 恤 印花 社区 关联 起 
来 ， 你 的 公司 最 终 将 成 为 两 种 生态 系统 的 融合 ， 你 和 相应 的 社区 都 将 从 
中 获 益 并 得 以 成 长 。 





15 ”在 充满 息 虫 的 世界 里 做 一 个 好 公民 


当 开 发 疏 虫 时 ， 还 有 一 些 事情 需要 清楚 。 不 负责 任 的 网 络 爬 虫 会 令 
人 不 悦 ， 甚 至 在 茶 些 情况 下 是 违法 的 。 有 两 个 非常 重要 的 事情 是 避免 类 
似 拒绝 服务 (DoS ) 攻击 的 行为 以 及 侵犯 版 权 。 











对 于 第 一 种 情况 ， 一 个 典型 的 访问 者 可 能 每 几 秒 访问 一 个 新 的 页 
面 。 而 一 个 典型 的 网 络 谎 虫 则 可 能 每 秒 下 载 数 十 个 页 面 。 这 样 就 比 典 型 
用 户 产 生 的 流量 多 出 了 10 倍 以 上 。 这 可 能 会 使 网 站 所 有 者 非常 不 高 兴 。 
请 使 用 流量 限 速 将 你 产生 的 流量 减少 到 可 以 接受 的 普通 用 户 的 水 平 。 此 
外 ， 还 应 该 监控 啊 应 时 间 ， 如 宋 发 现 啊 应 时 间 增 加 了 ， 就 需要 降低 谎 虫 








的 强度 。 好 消息 是 Scrapy 对 于 这 些 功能 都 提供 了 开 箱 即 用 的 实现 (参见 
第 7 章 ) 。 





对 于 版 权 问题 ， 显 然 你 需要 看 一 下 你 抓 取 的 每 个 网 站 的 版 权 声明 ， 
并 确保 你 理解 其 允许 做 什么 ， 不 允许 做 什么 。 大 多 数 网 站 都 允许 你 处 理 
其 站 点 的 信息 ， 只 要 不 以 自己 的 名 义 重 新 发 布 即 可 。 在 你 的 请 求 中 ， 有 
一 个 很 好 的 User-Agent 字段 ， 它 可 以 让 网 站 管理 员 知 道 你 是 谁 ， 你 用 
他 们 的 数据 做 什么 。Scrapy 在 制造 请 求 时 ， 默 认 使 用 BOT_NAME 参数 作 
为 User-Agent 。 如 果 User-Agent 是 一 个 URL 或 者 能 够 指明 你 的 应 用 
名 称 ， 那 么 网 站 管理 员 可 以 通过 访问 你 的 站 点 ， 更 多 地 了 解 你 是 如 何 使 
用 他 们 的 数据 的 。 另 一 个 非常 重要 的 方面 是 ， 请 允许 任何 网 站 管理 员 阻 
止 你 访问 其 网 站 的 指定 区 域 。 对 于 基于 Web 标 准 的 robots .txt 文件 
(参见 http://www.google.com/robots.txt 的 文件 示例 ) ，Scrapy 提 供 了 用 
于 尊重 网 站 管理 员 设 置 的 功能 (RobotsTxtMiddleware ) 。 最 后 ， 最 
好 辐 网 站 管理 员 提 供 一 些 方法 ， 让 他 们 能 说 明 不 希望 在 你 的 爬虫 中 出 现 
的 东西 。 至 少 网 站 管理 员 必 须 能 够 很 容易 地 找到 和 你 交流 及 表达 顾虑 的 

















1.6”Scrapy 不 是 什么 


最 后 ， 很 容易 误解 Scrapy 可 以 为 你 做 什么 ， 主 要 是 因为 数据 抓 取 这 
个 术语 与 其 相关 术语 有 些 模糊 ， 很 多 术语 是 交 瞧 使 用 的 。 我 将 尝试 使 这 
些 方面 更 加 清楚 ， 以 防止 混 消 ， 为 你 节省 一 些 时 间 。 


Scrapy 不 是 Apache Nutch， 也 就 是 说 ， 它 不 是 一 个 通用 的 网 络 疏 
虫 。 如 果 Scrapy 访 问 一 个 一 无 所 知 的 网 站 ， 它 将 无 法 做 出 任何 有 意义 的 


事情 。Scrapy 是 用 于 提取 结构 化 信息 的 ， 需 要 人 工 介 入 ， 设 置 合 适 的 
XPath 或 CSS 表 达 式 。 而 Apache Nutch 则 是 获取 通用 页 面 并 从 中 提取 信 
， 比 如 关键 字 。 它 可 能 更 适合 于 一 些 应 用 ， 但 对 男 一 些 应 用 则 又 更 不 





Gh èm 
n> 


Scrapy 不 是 Apache Solr、Elasticsearch 或 Lucene， 换 句 话 说， 就 是 它 
与 搜索 引擎 无 关 。Scrapy 并 不 打算 为 你 提供 包含 Einstein” 或 其 他 单词 的 
文档 的 参考 。 你 可 以 使 用 Scrapy 抽 取 数 据 ， 然 后 将 其 插入 到 Solr 或 
Elasticsearch 当 中 ， 我 们 会 在 第 9 重 的 开始 部 分 讲解 这 一 做 法 ， 不 过 这 仅 
仪 是 使 用 Scrapy 的 一 个 方法 ， 而 不 是 散 入 在 Scrapy 内 的 功能 。 


最 后 ，Scrapy 不 是 类 似 MySQL、MongoDB 或 Redis 的 数据 库 。 它 既 
不 存储 数据 ， 也 不 索引 数据 。 它 只 用 于 抽取 数据 。 即 便 如 此 ， 你 可 能 会 
将 Scrapy 抽 取得 到 的 数据 插入 到 数据 库 当 中 ， 而 且 它 对 很 多 数据 库 也 都 
有 所 支持 ， 能 够 让 你 的 生活 更 加 轻松 。 然 而 Scrapy 终 究 不 是 一 个 数据 
库 ， 其 输出 也 可 以 很 容易 地 更 改 为 只 是 磁盘 中 的 文件 ， 甚 至 什么 都 不 输 
出 一 一 虽然 我 不 确定 这 有 什么 用 。 





1.7 本 章 小 结 


本 章 介绍 了 Scrapy， 给 出 了 它 能 够 帮 你 做 什么 的 概述 ， 并 摘 述 了 我 
们 认为 的 使 用 本 书 的 正确 方式 。 本 章 还 提供 了 几 种 自动 化 数据 抓 取 的 方 
式 ， 通 过 帮 你 快速 开发 能 够 与 现 有 生态 系统 更 好 融合 的 高 质量 应 用 而 获 
益 。 下 一 章 将 介绍 HTML 和 XPath， 这 是 两 个 非常 重要 的 Web 语 言 ， 我 
们 在 每 个 Scrapy 项 目 中 都 将 用 到 它们 。 








第 2 章 ”理解 HIML 和 XPath 





为 了 从 网 页 中 抽取 信息 ， 你 必须 对 其 结构 有 更 多 了 解 。 我 们 将 快速 
浏览 HTIML、HTML 的 树 状 表示 ， 以 及 在 网 页 上 选取 信息 的 一 种 方式 
XPath 。 


2.1 _ HTML、DOM 树 表示 以 及 XPath 


让 我 们 花费 一 些 时 间 来 了 解 从 用 户 在 浏览 器 中 输入 URL (或 者 更 常 
见 的 是 ， 在 其 单 击 链接 或 书签 时 ) 到 屏幕 上 显示 出 页 面 的 过 程 。 从 本 书 
的 视角 来 看 ， 该 过 程 包 含 4 个 步骤 ， 如 图 2.1 所 示 。 





1. 一 个 URL : example.com 


4. 在 屏幕 上 看 到 的 结果 





2 一 个 HTML 文 档 3. 浏览 器 内 部 的 树 状 表示 形式 one 


Example Domain 
m Example 在 移动 设备 浏览 器 上 





。 在 浏览 器 中 输入 URL。URL 的 第 一 部 分 (域名 ， 比 如 gumtree .com 
) 用 于 在 网 络 上 找到 合适 的 服务 器 ， 而 URL 以 及 cookie 等 其 他 数据 
则 构成 了 一 个 请 求 ， 用 于 发 送 到 那 台 服务 器 当中 。 

。 服务 端 回应 ， 向 浏览 器 发 送 一 个 HTML 页 面 。 需 要 注意 的 是 ， 服 务 





端 也 可 能 返回 其 他 格式 ， 比 如 XML 或 JSON， 不 过 目前 我 们 只 关注 
HTML. 

。 将 HIML 转 换 为 浏览 器 内 部 的 树 状 表示 形式 : 文档 对 象 模型 
(Document Object Model, DOM ) 。 

。 基于 一 些 布局 规则 泻 染 内 部 表示 ， 达 到 你 在 屏幕 上 看 到 的 视觉 效 
FR 





下 面 来 看 看 这 些 步骤 ， 以 及 它们 所 需 的 文档 表示 。 这 将 有 助 于 定位 
你 想 要 抓 取 并 编写 程序 获取 的 文本 。 


2.1.1 URL 


对 于 我 们 而 言 ，URL 分 为 两 个 主要 部 分 。 第 一 个 部 分 通过 域名 系统 
(Domain Name System ，DNS ) 帮助 我 们 在 网 络 上 定位 合适 的 服务 
器 。 比 如 ， 当 在 浏览 器 中 发 送 https:V// 
mail.google.com/mail/u/@/#inbox 时 ， 将 会 创建 一 个 对 
mail.google.com 的 DNS 请 求 ， 用 于 确定 合适 的 服务 需 耳 地址 ， 如 
173.194.71.83 。 从 本 质 上 来 看 ，https:// 
mail.google.com/mail/u/@/#inbox 被 翻译 
Ahttps://173.194.71.83/mail/ u/@/#inbox 。 


URL ARIAS HB a RS FAR SS i RE Ts RE TE Hs BE EE 
张 图 片 、 一 个 文档 ， 或 是 需要 触 友 茶 个 动作 的 东西 ， 比 如 问 服务 器 发送 
邮件 。 


2.1.2 HTML 文 档 


服务 端 读 取 URL， 理 解 我 们 的 请 求 是 什么 ， 然 后 回应 一 个 HTML 文 
档 。 该 文档 实质 上 就 是 一 个 文本 文件 ， 我 们 可 以 使 用 TextMate、 
Notepad、vVi 或 Emacs 打 开 它 。 和 大 多 数 文 本 文档 不 同 ，HTML 文 档 具 有 
由 万 维 网 联盟 指定 的 格式 。 该 规范 当然 已 经 超出 了 本 书 的 范畴 ， 不 过 还 
是 让 我 们 看 一 个 简单 的 HTML 页 面 。 当 访问 http://example.com 时 ， 
可 以 在 浏览 器 中 选择 View Page Source (HAM MIS) 以 看 到 与 其 
相关 的 HTML 文 件 。 在 不 同 的 浏览 器 中 ， 上 有 具体 的 过 程 是 不 同 的 ; 在 许多 
系统 中 ， 可 以 通过 右键 单 击 找到 该 选项 ， 并 且 大 部 分 浏览 器 在 你 按 
下 Ctrl + U 快捷 键 ( 或 Mac 系 统 中 的 Cmd + U ) 时 可 以 显示 源 代码 。 


Q 
在 一 些 页 面 中 ， 该 功能 可 能 无 法 使 用 。 此 时 ， 需 要 通过 单 击 Chrome 沫 
单 ， 然 后 选择 Tools | View Source 才 可 以 。 











下 面 是 http://example.conm 目前 的 HTML 源 代码 。 





<!doctype html> 
<html> 
<head> 
<title>Example Domain</title> 
<meta charset="utf-8" /> 
<meta http-equiv="Content-type" 
content="text/html; charset=utf-8" /> 
<meta name="viewport" content="width=device-width, 
initial-scale=1" /> 
<style type="text/css"> body { background-color: ... 
} }</style> 
<body> 
<div> 
<h1>Example Domain</h1> 
<p>This domain is established to be used for 


illustrative examples examples in documents. 

You may use this domain in examples without 

prior coordination or asking for permission.</p> 
<p><a href="http://www.iana.org/domains/example 


More information...</a></p> 
</div> 
</body> 
</html> 





我 将 这 个 HTML 文 档 进 行 了 格式 化 ， 使 其 更 具 可 读 性 ， 而 你 看 到 的 





情况 可 能 是 所 有 文本 在 同一 行 中 。 在 HTML 中 ， 空 格 和 换行 在 大 多 数 情 
况 下 是 无 关 紧 要 的 。 


尖 插 号 中 间 的 文本 (比如 <html> <head> ) 被 称 为 标 
签 。<htm1> 是 起 始 标签 ， 而 </htm1> 是 结束 标签 。 这 两 种 标签 的 唯一 
区 别 是 /字符 。 这 说 明 ， 标 签 是 成 对 出 现 的 。 虽 然 一 些 网 页 对 于 结束 标 
签 的 使 用 比较 粗心 (比如 ， 为 独立 的 段落 使 用 单一 的 <p> 标签 ) ， 但 是 
浏览 器 有 很 好 的 容忍 度 ， 并 且 会 尝试 推测 结束 的 </p> 标签 应 该 在 哪 
里 。 

















<p> 和 </p> 标签 中 的 所 有 东西 被 称 为 HTML 元 素 。 请 注意 ， 元 素 中 
可 能 还 包括 其 他 元 素 ， 比 如 示例 中 的 <div> 元 素 ， 或 是 包含 ca> 元 素 的 
第 二 个 <p> 元 素 。 


有 些 标 签 会 更 加 复杂 ， 比 如 <a 
href="http://www.iana.org/domains/example "> 。 含 有 URL 的 
href 部 分 被 称 为 属性 。 


最 后 ， 许 多 元 素 还 包含 文本 ， 比 如 <h1> 元 素 中 的 "Example 


Domain" 


对 于 我 们 来 说 ， 好 消息 是 这 些 标签 并 不 都 是 重要 的 。 唯 一 可 见 的 东 
西 是 body 元 素 中 的 元 素 ， a 和 </body> 标签 之 间 的 元 
Zo <head> 部 分 对 于 指明 诸如 字符 编码 的 元 信息 来 说 非常 重要 ， 不 过 
Scrapy 能 够 处 理 大 部 分 此 类 问题 ， 所 以 很 多 情况 下 不 需要 关注 HTML 页 
面 的 这 个 部 分 。 


2.1.3” 树 表示 法 


每 个 浏览 器 都 有 其 自身 复杂 的 内 部 数据 结构 ， 和 凭借 它 来 泻 染 
DOM 表 示 法 具有 跨 平 台 、 语 言 无 关 性 等 特点 ， a 
支持 。 


























想 要 在 Chrome 中 得 看 网 页 的 树 表 示 法 ， 可 以 右键 单 击 你 感 兴趣 的 
元 素 ， 然 后 选择 Inspect Element 。 如 果 该 功能 被 禁用 ， 你 仍然 可 以 通过 
单 击 Chrome 菜 单 并 选择 Tools | Developer Tools 来 访问 它 ， 如 图 2.2 所 
Re 


在 页 面 上 
E 单 击 在 


Reload 


exa Save / U 

dina Print., 
Trans Inspect Element 
View Page Source 


View Rage Info 
Insp ct Element 


图 2.2 


此 时 ， 你 可 以 看 到 一 些 看 起 来 和 HTML 表 示 非 常 相似 但 又 不 完全 相 
同 的 东西 。 它 就 是 HIML 代 码 的 树 表示 法 。 如 果 不 管 原 始 HITML 文 档 是 
如 何 使 用 空格 和 换行 符 的 话 ， 它 看 起 来 几乎 就 是 一 样 的 。 你 可 以 单 击 每 
个 元 素 ， 检 查 或 调整 属性 等 ， 同 时 可 以 在 屏幕 上 观察 这 些 变 动 有 何 影 
响 。 比 如 ， 当 你 双击 某 个 文本 ， 修 改 它 ， 并 按 下 回 车 键 时 ， 屏 幕 上 的 文 
本 将 会 更 新 为 这 个 新 值 。 在 右 侧 的 Properties 标签 下 ， 可 以 看 到 这 个 树 
表示 法 的 属性 ， 并 且 在 底部 可 以 看 到 一 个 类 似 面 包 屑 的 结构 ， 它 显示 出 
了 当前 选择 的 元 素 在 HTML 元 素 层 次 结构 中 的 确切 位 置 ， 如 图 2.3 所 示 。 


























x | Elements’ Resources Network Sources Timeline Profiles Audits Console | 
» Computed Style Show inherited | 
v<htal> tegeg = 
v <head> > Styles +  @ | 
<title>Example Domain</title> > | 
<meta charset="utf-8"> (Properties | f 
<meta http-equiv=" Content-type" content= 
“text/html; charset=utf-8"> | 
<meta name="viewport" content= accesskey: "" $ 
“width=device-width, initial-scale=1"> align: "" | 
> <StyLe type="text/css">.</style> » attributes: NamedNodeMap 
</head> baseURI: “http: //example. iana.org/" | 
X childElementCount: 3 f 
<div> } » childNodes: NodeList[7] | 
ample Domnain</hl> » children: HTMLCoLlection[3] 
> <p>_.</p> » classList: DOMTokenList | 
F <p> className: "" | 
<a href="http://www. iana.org/domains/ clientHeight: 200 
example">More information...</a> clientLeft: 0 
</p> clientTop: 0 
</div> clientWidth: 657 
</body> contentEditable: “inherit” 
</html> » dataset: DOMStringMap 
dir: ww 
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图 2.3 





需要 注意 的 一 个 重要 事情 是 ，HIML 只 是 文本 ， 而 树 表示 法 是 浏览 
器 内 存 里 的 对 象 ， 你 可 以 通过 编程 的 方式 但 看 并 操纵 它 ， 比 如 在 
Chrome 中 使 用 Developer Tools 。 








2.1.4 ”你 会 在 屏幕 上 看 到 什么 


HTML 文 本 表示 和 树 表 示 并 不 包含 任何 像 我 们 通常 在 屏幕 上 看 到 的 
那 种 漂亮 视图 。 这 实际 上 是 HTML 成 功 的 原因 之 一 。 它 应 该 是 一 个 由 人 
类 阅读 的 文档 ， 并 且 可 以 指定 页 面 中 的 内 容 ， 而 不 是 用 于 在 屏 秦 中 演 染 
的 方式 。 这 意味 着 选择 HTML 文 档 并 使 其 更 加 好 看 是 浏览 器 的 贡 任 ， 不 
管 它 是 诸如 Chrome 的 全 功能 浏览 器 、 移 动 设备 浏览 器 ， 甚 至 是 诸如 
Lynx 的 纯 文 本 浏览 器 。 








也 就 是 说 ， 网 络 的 发 展 促 使 Web 开 发 者 和 用 户 对 网 页 演 染 的 控制 产 
生 了 巨大 需求 。CSS 的 创建 就 是 为 了 对 HTMEL 元 素 如 何 演 染 给 予 提 示 。 
不 过 ， 对 于 抓 取 而 言 ， 我 们 并 不 需要 任何 和 CSS 相 关 的 东西 。 


那么 ， 树 表示 法 是 如 何 映射 到 我 们 在 屏幕 上 所 看 到 的 东西 呢 ? 答案 
就 是 框 模型 。 正 如 DOM 树 元 素 可 以 包含 其 他 元 素 或 文本 一 样 ， 默 认 情 
况 下 ， 当 在 屏幕 上 演 染 时 ， 每 个 元 素 的 框 表 示 同 样 也 都 包含 其 艇 入 元 素 
的 框 表示 。 从 这 种 意义 上 说 ， 我 们 在 屏幕 上 所 看 到 的 是 原始 HTML 文 档 
的 二 维 表示 一 一 树 结构 也 以 一 种 隐藏 的 方式 作为 该 表示 的 一 部 分 。 比 
如 ， 在 图 2.4 中 ， 我 们 可 以 看 到 3 个 DOM 元 素 〈 一 个 <div> MAARAG 
A<h1> 和 <p> ) 是 如 何在 浏览 器 和 DOM 中 呈现 的 。 
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2.2 ”使 用 XPath 选择 HTML 元 素 


如 条 你 具有 传统 软件 工程 背景 ， 并 且 不 了 解 XPath 相关 知识 的 话 ， 
可 能 会 担心 为 了 访问 HTML 文档 中 的 信息 ， 你 将 需要 做 很 多 字符 串 匹 
配 、 在 文档 中 搜索 标签 、 处 理 特殊 情况 等 工作 ， 或 是 需要 设法 解析 整个 
树 表示 法 以 获取 你 想 抽取 的 东西 。 有 一 个 好 消 妃 是 这 些 工 作 都 不 是 必需 
的 。 你 可 以 通过 一 种 称 为 XPath 的 语言 选择 并 抽取 元 素 、 属 性 和 文本 ， 
这 种 语言 正 是 专门 为 此 而 设计 的 。 





为 了 在 Google Chrome 浏 览 器 中 使 用 XPath， 需 要 单 击 Developer 
Tools 的 Console 标签 ， 并 使 用 $x 工具 函数 。 比 如 ， 你 可 以 尝试 
在 http://example. com/ 上 使 用 $x('//h1')。 它 将 会 把 浏览 器 移动 
到 <h1> 元 素 上 ， 如 图 2.5 所 示 。 


e C www.example.com w | 三 





hi 600px » 39px3g shed to be used for illustrative examples in documents. You 


may use this dg@ain in examples without prior coorg asking for 
x Elements Resourc etwork Sources Timeline Profiles Aud 


> $x('//h1") 
[<hl>Example Q6main</hi>] 
> 



















0, >= Q © <topframe>v <page context> v Œ | Errors Warnings Logs Debug Ee] 
图 2.5 
你 在 Chrome 的 Console 标签 中 将 会 看 到 返回 的 是 一 个 包含 选 定 元 素 


的 JavaScript 数 组 。 如 宁 将 鼠标 指针 移动 到 这 些 属性 上 ， 被 选取 的 元 又 将 
会 在 屏幕 上 高 亮 显 示 ， 这 样 就 会 十 分 方便 。 


2.2.1 有 用 的 XPath 表达 式 


文档 的 层次 结构 始 于 <htm1> 元 素 ， 可 以 使 用 元 素 名 和 和 斜 线 来 选择 
文档 中 的 元 素 。 比 如 ， 下 面 是 几 种 表达 式 从 http://example.com 页 面 
返回 的 结果 。 














$x('/html') 

[ <html>...</html> ] 
$x('/html/body') 

[ <body>...</body> ] 
$x('/html/body/div' ) 

[ <div>...</div> ] 
$x('/html/body/div/h1' ) 

[ <h1>Example Domain</h1> ] 
$x('/html/body/div/p' ) 

[ <p>...</p>, <p>...</p> | 
$x('/htm1/body/div/p[1]') 

[ <p>...</p> ] 
$x('/html/body/div/p[2]') 

[ <p>...</p> ] 


[L CR 


需要 注意 的 是 ， 因 为 在 这 个 特定 页 面 中 ，<div> 下 包含 两 个 <p> 元 
素 ， 因 此 html/body/div/p 会 返回 两 个 元 素 。 可 以 使 用 p[1] 和 p[2] 
分 别 访问 第 一 个 和 第 二 个 元 素 。 








另外 还 需要 注意 的 是 ， 从 抓 取 的 角度 来 说 ， 文 档 标 题 可 能 是 head 
部 分 中 我 们 唯一 感 兴趣 的 元 系 ， 该 元 系 可 以 通过 下 面 的 表达 式 进 行 访 
问 。 


$x('//html/head/title') 
[ <title>Example Domain</title> ] 


对 于 大 型 文档 ， 可 能 需要 编写 一 个 非常 大 的 XPath 表 达 式 以 访问 指 
定 元 素 。 为 了 避免 这 一 问题 ， 可 以 使 用 // 语法 ， 它 可 以 让 你 取得 某 一 
特定 类 型 的 元 素 ， 而 无 需 考虑 其 所 在 的 层次 结构 。 比 如 ，//p 将 会 选择 
所 有 的 p 元 素 ， 而 //a 则 会 选择 所 有 的 链接 。 

















$x('//p') 
[ <p>...</p>, <p>...</p> ] 
$x('//a') 


[ <a href="http://www.iana.org/domains/example 


" >More 
information...</a> | 











同样 ，//a 语法 也 可 以 在 层次 结构 中 的 任何 地 方 使 用 。 比 如 ， 要 想 
找到 div 元 素 下 的 所 有 链接 ， 可 以 使 用 //div//a 。 需 要 注意 的 是 ， 只 
使 用 单 斜 线 的 //divyVa 将 会 得 到 一 个 空 数组 ， 这 是 因为 在 example.com 











中 ，"div' 元 又 的 直接 下 级 中 并 没有 任何 'a 元 素 : 


$x('//div//a' ) 
[ <a href="http://www.iana.org/domains/example 


">More 
information...</a> ] 
$x('//div/a' ) 

[ ] 





还 可 以 选择 属性 。http://example.com/ 中 的 唯一 属性 是 链接 中 的 
href ， 可 以 使 用 符号 @ 来 访问 该 属性 ， 如 下 面 的 代码 所 示 。 
$x('//a/@href' ) 


[ href="http://www. iana.org/domains/example 


" ] 








实际 上 ， 在 Chrome 的 最 新 版 本 中 ，@href 不 再 返回 URL， 而 是 返回 一 
个 空 字 符 串 。 不 过 不 用 担心 ， 你 的 XPath 表达 式 仍然 是 正确 的 。 


























还 可 以 通过 使 用 text() 函数 ， 只 选取 文本 。 


$x('//a/text()') 


[ "More information..." ] 





可 以 使 用 * 符 号 来 选择 指定 层级 的 所 有 元 素 。 比 如 : 





$x('//div/*') 
[ <h1l>Example Domain</h1>, <p>...</p>, <p>...</p> ] 


你 将 会 发 现 选 择 包 含 指 定 属性 (比如 @class ) 或 是 属性 为 特定 值 
的 元 素 非 常 有 用 。 可 以 使 用 更 高 级 的 谓词 来 选取 元 素 ， 而 不 再 是 前 面 例 
子 中 使 用 过 的 p[1] 和 p[2] 。 比 如 ，//a[@href] 可 以 用 来 选择 包 
含 href 属性 的 链接 ， 
而 //a[@href="http://www.iana.org/domains/example "] 则 是 选 
择 href 属性 为 特定 值 的 链接 。 





更 加 有 用 的 是 ， 它 还 拥有 找到 href 属性 中 以 一 个 特定 子 字 符 串 起 
始 或 包含 的 能 力 。 下 面 是 几 个 例子 。 


$x('//a[@href]') 


[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[@href="http: //www.iana.org/domains/example 


"]') 


[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[contains(@href, "iana")]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[starts-with(@href, "http://www.")]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a>] 
$x('//a[not(contains(@href, "abc"))]') 


[ <a href="http://www.iana.org/domains/example 


">More information...</a>] 





XPath 有 很 多 像 not() 、contains() 和 starts-with() 这 样 的 函 
数 ， 你 可 以 在 在 线 文档 ( 
http: //www.w3schools.com/xsl/xsl_functions.asp ) 中 找到 它 
们 ， 不 过 即使 不 使 用 这 些 函数 ， 你 也 可 以 走 得 很 远 。 





现在 ， 我 还 要 再 多 说 一 点 ， 大 家 可 以 在 Scrapy 命 令 行 中 使 用 同样 的 
XPath 表达 式 。 要 打开 一 个 页 面 并 访问 Scrapy 命 令 行 ， 只 需要 输入 如 下 


scrapy shell http://example.com 








FEAST, HAW RS FESS ME BASIN 2 i m 22 FA I] FS 
《参见 下 一 章 ) o RAP RBM, MPATML LR 
是 HtmlResponse 类 ， 该 类 可 以 让 你 通过 xpath() 方法 模拟 Chrome 中 的 
$x. FEE ERA. 








response.xpath('/html').extract() 

[u'<html><head><title>...</body></html>'] 
response.xpath('/html/body/div/h1').extract() 

[u'<h1>Example Domain</h1>'] 
response.xpath('/html/body/div/p').extract() 

[u'<p>This domain ... permission.</p>', u'<p><a href="http://www. 
iana.org/domains/example 


">More information. ..</a></p>'] 
response.xpath('//html/head/title').extract() 
[u'<title>Example Domain</title>'] 
response.xpath('//a').extract() 
[u'<a href="http://www.iana.org/domains/example 


">More 
information. ..</a>'] 


response. xpath('//a/@href').extract() 
[u'http://www.iana.org/domains/example 


'] 

response.xpath('//a/text()').extract() 
[u'More information...‘ ] 

response.xpath('//a[starts-with(@href, "http://www.")]').extract() 
[u'<a href="http://www. iana.org/domains/example 


">More 
information...</a>' ] 





这 就 意味 着 ， 你 可 以 使 用 Chrome 开 发 XPath 表达 式 ， 然 后 在 Scrapy 
疏 虫 中 使 用 它们 ， 正 如 我 们 在 下 一 节 中 将 要 看 到 的 那样 。 


2.2.2 ”使 用 Chrome 获 取 XPath 表 达 式 


Chrome 通 过 回 我 们 提供 一 些 基 本 的 XPath 表达 式 ， 从 而 对 开发 者 更 
加 友好 。 从 前 文 提 到 的 检查 元 素 开 始 : 右键 单 击 想 要 选取 的 元 素 ， 然 后 
选择 Inspect Element 。 访 操作 将 会 打开 Developer Tools ， 并 且 在 树 表 
示 法 中 高 亮 显示 这 个 HTML 元素 。 现 在 右键 单 击 这 里 ， 在 菜单 中 选择 
Copy XPath ， 此 时 XPath 表 达 式 将 会 被 复制 到 去 贴 板 中 。 上 述 过 程 如 图 
2.6 所 示 。 
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图 2.6 


你 可 以 和 之 前 一 样 ， 在 命令 行 中 测试 该 表达 式 。 


$x('/html/body/div/p[2]/a') 
[ <a href="http://www.iana.org/domains/example 


">More 
information. ..</a>] 





2.2.3 ”第 见 任务 示例 


有 一 些 XPath 表 达 式 ， 你 将 会 经 前 遇 到 。 让 我 们 看 一 些 目前 在 维基 
百科 页 面 上 的 例子 。 cee Micka aig 所 以 我 认为 它 
们 不 会 很 快 发 生 改 变 ， 不 过 改变 终 会 发 生 的 。 我 们 把 如 下 这 些 表 
达 式 作为 说 明 性 示例 。 








。 获取 id 为 "firstHeading" 的 hl 标签 下 span 中 的 text 。 


//h1[@id="firstHeading" ]/span/text() 





。 获取 id 为 "toc "的 div 标签 内 的 无 序列 表 Cul) 中 所 有 链接 URL 


//div[@id="toc" ]/ul//a/@href 


。 获取 class 属性 包含 "ltr" 以 及 class 属性 包含 "skin-vector" 
的 任意 元 素 内 所 有 标题 元 素 (h1 ) 中 的 文本 。 这 两 个 字符 串 可 能 
在 同一 个 class 中 ， 也 可 能 在 不 同 的 class 中 。 








//*[contains(@class,"1tr") and contains(@class,"skin-vector") ]//h1//t 


ext() 





实际 上 ， 你 将 会 经 常 在 XPath 表达 式 中 使 用 到 类 。 在 这 些 情 况 下 ， 
需要 记 住 由 于 一 些 被 称 为 CSS 的 样式 元 素 ， 你 会 经 常 看 到 HTML 元 素 在 
其 class 属性 中 拥有 多 个 类 。 比 如 ， 在 一 个 导航 系统 中 ， 你 会 看 到 一 些 
div 标 签 的 class 属性 是 "Link "， 而 另 一 些 是 "1ink active"。 后 者 是 
当前 激活 的 链接 ， 因 此 会 表现 为 可 见 或 使 用 一 种 特殊 的 颜色 (通过 
CSS) 高 亮 表 示 。 当 抓 取 时 ， 你 通常 会 对 包含 有 特定 类 的 元 素 感 兴趣 ， 
具体 来 说 ， 就 是 前 面 例子 中 的 "link "和 "link active"。 对 于 这 种 情 
况 ，XPath 的 contains() 函数 可 以 让 你 选择 包含 有 指定 类 的 所 有 元 
ee 











。 选择 class 属性 值 为 "infobox "的 表格 中 第 一 张 图 片 的 URL。 





//table[@class="infobox" ]//img[1]/@src 


。 选择 class 属性 以 "reflist "开头 的 div 标签 中 所 有 链接 的 URL。 


//div[starts-with(@class,"reflist")]//a/@href 


。 选择 子 元 素 包 含 文本 "References "的 元 素 之 后 的 div 元 素 中 所 有 
链接 的 URL。 





//*[text()="References"]/../following-sibling::div//a 








请 注意 该 表达 式 非 常 脆弱 并 且 很 容易 无 法 使 用 ， 因 为 它 对 文档 结构 
做 了 过 多 假设 。 


。 获取 页 面 中 每 张 图 片 的 URL。 


//img/@src 


2.2.4 预见 变化 

抓 取 时 经 常会 指 问 我 们 无 法 控制 的 服务 器 页 面 。 这 就 意味 着 如 果 它 
们 的 HIML 以 某 种 方式 发 生变 化 后 ， 就 会 使 XPath 表 达 式 失效 ， 我 们 将 
不 得 不 回 到 爬虫 当中 进行 修正 。 通 稼 情况 下 ， 这 不 会 花费 很 长 时 间 ， 


为 这 些 变化 一 般 都 很 小 。 但 是 ， 这 仍然 是 需要 避免 发 生 的 情况 。 一 些 简 
单 的 规则 可 以 帮助 我 们 减少 表达 式 失效 的 可 能 性 。 


。 避免 使 用 数组 索引 CBUED 


Chrome 经 常会 给 你 的 表达 式 中 包含 大 量 和 常数 ， 例 如 : 


//*[@id="myid" |/div/div/div[1]/div[2]/div/div[1]/div[1]/a/img 











这 种 方式 非常 脆弱 ， 因 为 如 果 像 广告 块 这 样 的 东西 在 层次 结构 中 的 
某 个 地 方 添加 了 一 个 额外 的 div 的 话 ， 这 些 数字 最 终 将 会 指向 不 同 的 元 
素 。 本 案例 的 解决 方法 是 尽 可 能 接近 目标 的 ijmg 标签 ， 找 到 一 个 可 以 使 
用 的 包含 id 或 者 class 属性 的 元 素 ， 如 : 


//div[@class="thumbnail" ]/a/img 


。 类 并 没有 那么 好 用 


使 用 class 属性 可 以 更 加 容易 地 精确 定位 元 素 ， 不 过 这 些 属 性 一 般 
是 用 于 通过 CSS 影 响 页 面 外 观 的 ， 因 此 可 能 会 由 于 网 站 布局 的 微小 变更 
而 产生 变化 。 例 如 下 面 的 class : 


//div[@class="thumbnail" ]/a/img 


一 段 时 间 后 ， 可 能 会 变 成 : 


//div[@class="preview green"]/a/img 











。 有 意义 的 面向 数据 的 类 要 比 具 体 的 或 者 面向 布局 的 类 更 好 


在 前 面 的 例子 中 ， 无 论 是 "thumbnail "还 是 "green "都 是 我 们 所 依 
赖 类 名 的 坏 示 例 。 虽 然 "thumbnail " 比 "green "确实 更 好 一 些 ， 但 是 它 
们 都 不 如 "departure-time"。 前 面 两 个 类 名 是 用 于 描述 布局 的 ， 

而 "departure-time "更 加 有 意义 ， 与 div 标签 中 的 内 容 相 关 。 因 此 ， 
在 布局 发 生变 化 时 ， 后 者 更 可 能 保持 有 效 。 这 可 能 也 意味 着 该 站 的 开发 
者 非常 清楚 使 用 有 意义 并 且 一 致 的 方式 标注 他 们 数据 的 好 处 。 





通常 情况 下 ，id 属性 是 针对 一 个 目标 的 最 佳 选择 ， 因 为 该 属性 既 
意义 又 与 数据 相关 。 部 分 原因 是 JavaScript 以 及 外 部 链接 锚 一 般 选 择 
id 属性 以 引用 文档 中 的 特定 部 分 。 例 如 ， 下 面 的 XPath 表达 式 非 常 健 
壮 。 


//*[@id="more_info" ]//text() 


例外 情况 是 以 编程 方式 生成 的 包含 唯一 标记 的 ID 。 这 种 情况 对 于 
抓 取 至 无 意义 。 比 如 : 


//[@id="order-F4982322"] 


尽管 使 用 了 id ， 但 上 面 的 表达 式 仍 然 是 一 个 非常 差 的 XPath 表达 
式 。 需 要 记 住 的 是 ， 尽 管 ITD 应 该 是 唯一 的 ， 但 是 你 仍然 会 发 现 很 
多 HTML 文档 并 没有 满足 这 一 要 求 。 








23 本章 小 结 


由 于 标记 的 质量 不 断 提 高 ， 现 在 可 以 更 加 容易 地 创建 健壮 的 XPath 
表达 式 ， 来 抽取 HTML 文 档 中 的 数据 。 在 本 章 中 ， 你 学 习 了 HTML 文 档 
和 XPath 表达 式 的 基础 知识 。 你 可 以 看 到 如 何 使 用 Google 的 Chrome 浏 览 
器 自动 获取 一 些 XPath 表 达 式 ， 并 将 其 作为 我 们 后 续 优 化 的 起 点 。 你 同 
样 还 学 到 了 如 何 通 过 审查 HTML 文 档 ， 直 接 创建 这 些 表达 式 ， 以 及 辨别 
XPath 表达 式 是 否 健壮 。 现 在 ， 我 们 准备 好 运用 已 经 学 到 的 所 有 知识 ， 
在 第 3 章 中 使 用 Scrapy 编 写 我 们 的 前 几 个 爬虫 。 





这 和 古 非 党 重要 的 一 章 ， 你 可 能 会 多 次 阅读 本 章 ， 并 且 经 名 会 在 寻找 
解决 方案 时 回 到 本 章 中 。 我 们 首先 会 介绍 如 何 安装 Scrapy， 然 后 伴随 知 
干 示 例 及 不 同 的 实现 ， 转 向 开发 Scrapy 息 虫 的 方法 论 。 在 开始 之 前 ， 我 
们 先 来 看 一 些 重要 的 概念 。 


由 于 我 们 会 快速 进入 有 趣 的 代码 部 分 ， 因 此 使 用 本 书 中 代码 片段 的 
能 力 非常 重要 。 当 你 看 到 如 下 内 容 时 : 


$ echo hello world 


hello world 





表示 你 在 终端 输入 了 echo hello word (忽略 美元 符号 ) ， 接 下 
来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 输出 。 








vl 


Q 

















我 们 将 会 混用 “终端 ”"、“ 控 制 台 ” 和 “命令 行 * 这 几 个 术语 ， 它 们 在 本 书 的 
背景 下 没有 太 大 区 别 。 请 用 Google 搜 索 并 找 出 如 何 局 动 你 所 使 用 的 平台 
(Windows、OS X 或 其 他 中 的 控制 台 。 你 也 可 以 在 附录 A 中 找到 详细 的 指 
引 。 


























EL | 
当 你 看 到 如 下 内 容 时 : 


>>> print 'hi' 


hi 





表示 你 在 Python 或 Scrapy 的 shell 提 示 符 中 输入 了 print 'hi' ( 忽 
>>>) 。 同 样 地 ， 接 下 来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 该 命 
令 的 输出 。 








在 本 书 中 ， 你 还 需要 编辑 文件 。 你 所 使 用 的 工具 很 大 程度 上 依赖 于 
你 的 环境 。 如 果 你 使 用 Vagrant〔 强 烈 推 荐 ) ， 可 以 使 用 电脑 或 笔记 本 
中 诸如 Notepad、Notepad++、Sublime Text、TextMate、Eclipse 或 
PyCharm 等 编辑 器 。 如 果 你 有 更 多 的 Linux 或 UNIX 使 用 经 验 ， 也 可 能 
喜欢 直接 使 用 Vim 或 Emacs 在 控制 台中 编辑 文件 。 这 两 种 编辑 器 都 很 强 
大 ， 不 过 需要 一 定 的 学 习 曲 线 。 如 果 你 是 一 个 初学 者 ， 并 且 不 得 不 在 控 
制 台 中 编辑 某 些 东西 ， 那 么 也 可 以 尝试 对 初学 者 更 加 友好 的 nano 编 辑 
器 。 





3.1 ”安装 Scrapy 


Scrapy 的 安装 相对 来 说 比较 简单 ， 不 过 它 会 完全 依赖 于 你 从 哪里 起 
步 。 为 了 能 够 文 持 尽 可 能 多 的 用 户 ， 本 书 中 运行 和 安装 Scrapy 以 及 所 有 





示例 的 “官方 ”方式 是 通过 Vagrant， 该 软件 能 够 让 你 在 不 考虑 宿主 操作 系 
统 的 情况 下 ， 运 行 一 个 标准 的 Linux 系 统 ， 在 该 系统 中 我 们 已 经 安装 好 
所 有 需要 用 到 的 工具 。 我 们 将 会 在 接 下 来 的 几 小 节 中 给 出 Vagrant 的 使 
用 说 明 以 及 一 些 闻 用 操作 系统 中 的 指引 。 


3.1.1 MacOS 


为 了 更 加 方便 地 阅读 本 书 ， 请 按照 后 面 给 出 的 Vagrant 使 用 说 明 操 
作 。 如 采 你 想 直 接 在 MacOS 系 统 中 安装 Scrapy， 其 实 也 很 简单 。 只 需要 
输入 下 面 的 命令 即 可 。 


$ easy_install scrapy 





然后 ， 一 切 都 会 为 你 准备 好 。 在 过 程 中 ， 可 能 会 要 求 你 填写 密码 或 
安装 Xcode， 如 图 3.1 所 示 。 这 些 都 没有 问题 ， 你 可 以 放心 地 接受 这 些 请 





The "gcc" command requires the command line | 
A developer tools. Would you like to install the tools | 
- now? 
Choose Install to continue. Choose Cet Xcode to install Xcode 
and the command line developer tools from the App Store 
Get Xcode Not Now 
Í n, 
( Downloading software 
@) 5 
一 一 一 一 


Time remaining: About a minute 


or sweet 


Stop u 





3.1.2 Windows 


直接 在 Windows 系 统 中 安装 Scrapy 会 复杂 一 些 ， 坦 白 来 说 ， 会 有 一 
点 痛苦 。 而 且 ， 安 装 本 书 中 所 需 的 所 有 软件 也 需要 很 大 程度 的 勇气 和 诀 
心 。 我 们 已 经 为 你 做 好 了 准备 。Vagrant 和 Virtualbox 可 以 在 Windows 64 
位 平台 中 良好 运行 。 直 接 前 往 本 章 后 续 的 相关 小 节 ， 你 可 以 很 快 将 其 安 
装 好 并 运行 起 来 。 如 果 你 必须 要 在 Windows 系 统 中 直接 安装 Scrapy， 请 
查阅 本 书 网 站 (Chttp://scrapybook.com ) 中 的 资源 。 











3.1.3 Linux 


和 前 面 提 及 的 两 个 操作 系统 一 样 ， 如 果 你 想 按照 本 书 操作 ， 那 么 
Vagrant 束 是 最 为 推荐 的 方式 。 











由 于 在 很 多 场景 下 ， 你 需要 在 Linux 服 务 器 中 安装 Scrapy， 因 此 更 详 
尽 的 指引 可 能 会 很 有 用 。 


Q 
确切 的 依赖 条 件 经 常会 发 生变 更 。 本 书 编写 时 ， 我 们 安装 的 Scrapy 版 本 
是 1.0.3， 下 面 的 内 容 是 针对 不 同 主流 系统 的 操作 指南 。 























1. Ubuntu 或 Debian Linux 


为 了 在 Ubuntu 〈 使 用 Ubuntu 14.04 Trust Tahr 64 位 版 本 测试 ) 或 其 
他 使 用 apt 的 发 布 版 本 中 安装 Scrapy， 需 要 执行 如 下 3 个 命令 。 





$ sudo apt-get update 


$ sudo apt-get install python-pip python-lxml python-crypto python- 


cssselect python-openss1 python-w31ib python-twisted python-dev 1ibxm12- 


dev libxslti-dev zlibig-dev libffi-dev libssl-dev 


$ sudo pip install scrapy 





上 述 过 程 需 要 一 些 编译 工作 ， 而 且 可 能 会 被 不 时 打 断 ， 不 过 它 将 会 
为 你 安装 PyPI 源 上 最 新 版 本 的 Scrapy。 如 果 你 想 避 免 某 些 编译 工作 ， 并 
且 能 够 忍受 使 用 稍微 过 时 一 些 的 版 本 的 话 ， 可 以 通过 Google 搜 索 “install 
Scrapy Ubuntu packages”， 并 跟随 Scrapy 官 方 文档 的 指引 进行 操作 。 


2. Red Hat 或 CentOS Linux 


在 Red Hat 或 其 他 使 用 yum 的 发 布 版 本 中 安装 Scrapy 相 对 来 说 比较 容 
易 。 你 只 需 按照 如 下 3 行 操作 即 可 。 





sudo yum update 


sudo yum -y install libxslt-devel pyOpenSSL python-lxml python-devel gcc 


sudo easy_install scrapy 


oS ëO 


3.1.4 ”最 新 源码 安装 


只 要 你 按照 上 述 指引 操作 的 话 ， 融 已 经 安装 好 了 Scrapy 目 前 所 需 的 
所 有 依赖 。 由 于 Scrapy 是 纯 Python 应 用 ， 因 此 如 果 你 想 修 改 其 源 代码 或 
测试 最 新 功能 ， 可 以 很 容易 地 从 
https://github.com/scrapy/scrapy 网 站 中 克隆 其 最 新 版 本 。 在 你 
的 系统 中 安装 Scrapy， 只 需 输入 如 下 命令 。 


$ git clone https://github.com/scrapy/scrapy.git 


$ cd scrapy 


$ python setup.py install 





我 猜 如 果 你 属于 这 类 Scrapy 用 户 ， 也 就 不 需要 我 再 提 太 


virtualenv 了 。 


3.1.5 升级 Scrapy 








Scrapy 经 常会 升级 。 你 会 发 现 上 自己 需要 在 很 短 时 间 内 完成 升级 ， 此 
时 可 以 使 用 pip 、easy_install aptitude 完成 这 项 工作 。 


$ sudo pip install --upgrade Scrapy 


$ sudo easy_install --upgrade scrapy 








如 果 想 降级 或 选择 特定 版 本 ， 可 以 通过 指定 版 本 号 来 完成 ， 比 如 : 


$ sudo pip install Scrapy==1.0.0 


$ sudo easy_install scrapy==1.0.0 





/一 — 


3.1.6 Vagrant: 本 书 中 运行 示例 的 官方 方式 














本 书 中 会 有 很 多 复杂 但 又 有 趣 的 例子 ， 其 中 一 些 例子 会 用 到 很 多 服 
务 。 无 论 是 处 于 初学 还 是 进 阶 阶段 ， 都 可 以 运行 本 书 中 的 这 些 示 例 ， 这 
是 因为 被 称 为 Vagrant 的 程序 可 以 让 我 们 仅仅 使 用 简单 的 命令 就 能 准备 
好 这 个 复杂 的 系统 。 本 书 中 使 用 的 系统 如 图 3.2 所 示 。 





























图 3.2 ”本 书 使 用 的 系统 


在 Vagrant 的 术语 中 ， 你 的 电脑 或 笔记 本 被 称 为 “宿主 ?机 。Vagrant 
使 用 宿主 机 运行 Docker 提 供 者 VM 〈 虚 拟 机 ) 。 这 些 技术 可 以 让 我 们 拥 
有 一 个 隔离 的 系统 ， 在 其 中 拥有 其 私有 网 络 ， 可 以 忽略 窒 主 机 的 软 便 
件 ， 运 行 本 书 中 的 示例 。 


大 部 分 章节 只 使 用 了 两 个 服务 : "dev" 机 器 和 "web" 机 器 。 我 们 登录 
到 dev 机 器 中 运行 仆 虫 ， 抓 取 web 机 器 中 的 页 面 。 后面 的 一 些 间 节 会 用 到 
更 多 的 服务 ， 包 括 数 据 库 和 大 数据 处 理 引 擎 。 


请 按照 附录 A 的 说 明 ， 在 操作 系统 中 安装 Vagrant。 到 附录 A 的 结尾 
时 ， 你 应 当 已 经 在 操作 系统 中 安装 好 git 和 Vagrant 了 。 打 开 控 制 台 / 
终端 /命令 提示 符 ， 现 在 可 以 按照 如 下 操作 获取 本 书 的 代码 了 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 





然后 可 以 通过 输入 如 下 命令 打开 Vagrant 系 统 。 


$ vagrant up --no-parallel 





TER RIS (TN ete oe HE A), RR ERR. FE 
Za, ‘vagrant up' 操 作 将 会 瞬间 完成 。 当 系统 运行 起 来 之 后 ， 束 可 以 
使 用 如 下 命令 登录 dev 虚 拟 机 。 


$ vagrant ssh 


现在 ， 你 已 经 处 于 开发 控制 全 当中， 在 这 里 可 以 按照 本 书 的 其 他 说 
明 操作 。 代 码 已 经 从 你 的 窒 主 机 复制 到 dev 机 器 当中 ， 可 以 在 book 目 录 
下 找到 这 些 代码 。 


$ cd book 


$ 1s 


ch63 ch64 ch@5 ch67 ch68 ch69 ch16 ch11 ... 








打开 几 个 控制 台 并 执行 vagrant ssh ， 可 以 获得 多 个 可 供 操 作 的 
dev 终 端 。 可 以 使 用 vagrant halt 关闭 系统 ， 使 用 vagrant status 
查看 系统 状态 。 请 注意 ，vagrant halt 不 会 关 掉 VM。 如 果 出 现 问 
题 ， 则 需要 打开 VirtualBox 然 后 手动 关闭 它 ， 或 者 使 用 vagrant 
global-status 找到 其 id (名 为 "docker-provider") ， 然 后 使 
用 vagrant halt <ID> 停 掉 它 。 即 使 你 处 于 离线 状态 ， 大 部 分 示例 仍 
然 能 够 运行 ， 这 也 是 使 用 Vagrant 的 一 个 很 好 的 副作用 。 


现在 ， 我 们 已 经 正确 地 创建 好 了 系统 ， 下 面 就 该 准备 学 习 Scrapy 
T; 


3.2 UR? IM- ”基本 抓 取 流 程 


每 个 网 站 都 是 不 同 的 ， 如 果 发 现 某 些 不 利 见 的 情况 ， 则 需要 一 些 额 
外 的 学 习 ， 或 是 在 Scrapy 的 邮件 列表 中 咨询 一 些 问题 。 不 过 ， 为 了 知道 
在 哪里 和 如 何 搜索 ， 重 要 的 是 对 其 流程 有 一 个 整体 的 了 解 ， 并 且 清 楚 相 
关 的 术语 。 和 Scrapy 打 交道 时 ， 你 所 遵循 的 最 通用 的 流程 是 UR“ IM 流 
程 ， 如 图 3.3 所 示 。 





FEAR MEIN eRe 


。 URL 
。 请 求 (Request) 


e 响应 (Response) 
e Item lp 
。 更 多 的 URL (More URL) 








13.3 UR2 IM 流程 


3.2.1 URL 


一 切 始 于 URL。 你 需要 从 准备 抓 取 的 网 站 中 选择 几 个 示例 URL。 我 
将 使 用 Gumtree 分 类 广告 网 站 〈 https://www.gumtree.com ) 作为 
示例 进行 演示 。 


比如 ， 通 过 访问 Gumtree 上 的 伦敦 房产 主页 (链接 为 
http://www.gumtree.com/flats-houses/london ) ， 你 能 够 找到 
一 些 房产 的 示例 URL。 可 以 通过 右键 单 击 分 类 列表 ， 选 择 Copy Link 
Address (复制 链接 地 址 〉 或 你 浏览 器 中 同样 的 功能 ， 来 复制 这 些 
接 。 比 如 ， 其 中 一 个 可 能 类 似 于 
https://www.gumtree.com/p/studios-bedsits-rent/split- 
level 。 虽 然 可 以 在 真实 网 站 中 使 用 这 些 URL 来 操作 ， 但 不 幸 的 是 ， 
经 过 一 段 时 间 后 ， 真 实 的 Gumtree 网 站 可 能 会 发 生变 化 ， 造 成 XPath 表达 
式 无 法 正 党 工作。 此外， 除非 设置 一 个 用 户 代 理 头 ， 否 则 Gumtree 不 会 
ea 稍 后 我 们 会 对 此 进行 更 进一步 的 讲解 ， 不 过 就 现在 而 
言 ， 如 果 想 加 载 它 们 的 某 个 页 面 ， 可 以 在 scrapy shell 中 使 用 如 下 命令 。 





scrapy shell -s USER_AGENT="Mozilla/5.0" <your url here e.g. http://www. 


gumtree.com/p/studios-bedsits-rent/...> 





如 果 想 要 在 使 用 scrapy shell 时 调试 问题 ， 可 以 使 用 - -pdb 参数 启用 
交互 式 调试 ， 以 避免 发 生 异 常 。 例 如 : 


scrapy shell --pdb https://gumtree.com 





scrapy shell 是 一 个 非常 有 用 的 工具 ， 能 够 帮助 我 们 使 用 Scrapy 开 发 。 











很 显然 ， 我 们 并 不 辟 励 你 在 学 习 本 书 内 容 时 访问 Gumtree 的 网 站 ， 
我 们 也 不 希望 本 书 的 示例 在 不 久之 后 就 无 法 使 用 。 此 外 ， 我 们 还 希望 即 
使 无 法 连接 互联 网 ， 你 仍然 能 够 开发 和 使 用 我 们 的 示例 。 这 就 是 为 什么 
你 的 Vagrant 开 发 环境 中 包含 一 个 提供 了 类 似 于 Gumtree 网 站 页 面 的 Web 
服务 器 的 原因 。 虽 然 它 们 可 能 不 如 真实 网 站 那么 漂亮 ， 但 是 从 息 虫 角度 
来 说 ， 它 们 其 实 是 一 样 的 。 即 便 如 此 ， 我 们 在 本 章 中 的 所 有 截图 还 是 来 
自 真实 的 Gumtree 网 站 。 在 你 Vagrant 的 dev 机 器 中 ， 可 以 通过 
http://web:9312/ 访问 该 Web 服 务 器 ， 而 在 你 的 浏览 器 中 ， 可 以 通 
http://localhost:9312/ 来 访问 。 





在 scrapy shell 中 打开 服务 器 中 的 一 个 网 页 ， 并 且 在 dev 机 器 上 输入 如 
下 内 容 进行 操作 。 





$ scrapy shell http://web:9312/properties/property_000000.htm1 


[s] Available Scrapy objects: 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


>>> 


crawler 


item 


request 


response 


settings 


spider 


<scrapy.crawler.Crawler object at @x2d4fb10> 


{} 


<GET http:// web:9312/.../property_000000.htm1> 


<200 http://web:9312/.../property_900000.htm1> 


<scrapy.settings.Settings object at @x2d4fa90@> 


<DefaultSpider 'default' at @x3ea@bda@> 


Useful shortcuts: 


shelp() 


Shell help (print this help) 


fetch(req_or_url) Fetch request (or URL) and update local... 


view(response) View response in a browser 


我 们 得 到 了 一 些 输出 ， 现 在 可 以 在 Python 提示 符 下 ， 用 它 来 调试 刚 
才 加 载 的 页 面 〈 一 般 情况 下 ， 可 以 使 用 Ctrl1+ DIB) 。 


3.2.2 “请求 和 啊 应 


大 家 可 能 注意 到 在 前 面 的 日 志 中 ，scrapy shell 本 身 已 经 为 我 们 做 了 
一 些 工 作 。 我 们 给 出 了 一 个 URL， 然 后 它 执 行 了 一 个 默认 的 GET 请 求 ， 
并 得 到 了 一 个 状态 码 为 268 的 响应 。 这 就 意味 着 ， 页 面 信息 已 经 加 载 完 
毕 ， 可 以 使 用 了 。 如 果 想 要 打印 response.body 的 前 50 个 字符 ， 可 以 
按 如 下 命令 操作 。 


>>> response.body[ :56] 


"<IDOCTYPE html>\n<html>\n<head>\n<meta charset="UTF-8"' 





Q 
[:50] 是 什么 ? 这 是 Python 从 文本 变量 〈 本 例 为 response.body ) 中 


抽取 最 前 面 50 个 字符 《〈 如 果 存 在 ) 的 方式 。 如 果 你 之 前 并 不 了 解 Python， 请 
保持 冷静 ， 继 续 向 前 。 很 快 ， 你 就 会 熟悉 并 享受 所 有 这 些 语法 技巧 了 。 






































这 是 Gumtree 上 指定 页 面 的 HTML 内 容 。 请 求 和 响应 部 分 不 会 给 我 
们 帝 来 太 多 麻烦 。 不 过 ， 在 很 多 情况 下 ， 你 需要 做 一 些 工 作 才 能 保证 其 
正确 。 第 5 章 中 讲 到 这 些 内 容 。 就 目前 来 说 ， 我 们 尽量 保持 简单 ， 直 接 
进入 下 一 部 分 一 一 Item 。 











3.2.3 Item 


下 一 步 是 尝试 从 啊 应 中 将 数据 抽取 到 Item 的 字段 中 。 因 为 该 页 面 
ee 因此 可 以 使 用 XPath 表达 式 进行 操作 。 首 先 ， 让 我 们 
看 一 下 这 个 页 面 ， 如 图 3.4 所 示 。 





All Categories 7 tondon +Umiles 


<Back | United Kingdom / England / London / WestLondon / EarisCourt / Property / Propertyto Rent / Flats&HousesforRent / Studio Apartments&Bedsitsto Rent 
Split level wis ea Lie SM} Copy 


Search Google com for UTILITY’ ("ct 
Print... mete am Seeallads 


Q map 
a 一 -一 reve 
Look Up in Dictionary 
= Speech > 
1 | Search With Google Save A Report ~ | 
Elements | Network” Sources Timeline tithe, i | Look Up in VitalSource Bookshelf 


Richi docation iie ANS Add to iTunes as a Spoken Track 
v<main role="main" class="grid-row ptm" itemscope itemtype="http://schema.org/Prodt Add to Evernote 
<aside clg@Mg="grid-col-12 hide-ful¥to-m " role="complementary"></aside> 
><div cla: rid-col-12 hide-fully we / div> 
v <div class@§grid-col-12 grid-col-l 













Earls Court, London 





Styles | Computed 
element.style { 
} 


« truncate-number 
{ 





v <header iss="clearfix space—mbs' 
> <hl itemprop="name" cla: spacetmbs">..</h1> pity anne 
<strong @lass="ad-location truncate-line set-left" itemscope itemtype="http://schema.org/Place" itemprop="name"> position: retat: 
Earls Court, London 四 ERE i — telephone padding-right: ¢ 
</strong> } 
> <span class="h1 set-right space-mvn" itemprop="offers" itemscope itemtype="http://schema.org/Offer">..</span> ,form-row-label { 
::after line-height: 40; 
</nheader> 
> <div class="tabs-triggers">..</div> 
> <div class="tabs-content space-mbm">..</div> "txt-large { 
> <div ctass="hide-fully-f rom-m">..</div> font-size: 18px; 
</div> } 
v <div class="grid-col-m-6 hide-fully-to-m grid-col-m-right grid-col-l-4"> .txt-emphasis { 
v <section class="box box-peelshadow-r" itemscope itemtype="http://schema.org/Person" data-q="reply-box-2"> font-weight: 601 
: before 
v <div class="box-padding"> stron { 
<h2 class="truncate-line space-mbxs">~</h2> 9 
<p class="h-underline-s space-mbs“>..</p> } Font-weight+-60( 
Y<div class="clearfix"> 
><span class="icn-phone icn-quaternary" aria-hidden="true">.</span> b, strong { 


> <strong Class="truncate-number txt-large txt-emphasis form—row-label" data-toggle="channel:number-truncate, classNam :is-showing, selfBroadcast: Fert—meigHt 0 





false" itemprop="telephone">_</strong> 
><a href="#" class="btn-secondary-point-left set-right" data-broadcast="channel:number-truncate,ance:true” data-analytics="gaEvent: 


R2SPhoneBegin, zenoEvent: PhoneEvent, zenoOptions; {adId:1874276630,pageType: VIP" data—toggle="channeL: number-truncate, className: is 一 


e :after { 
disabled, selfBroadcast:false">..</a> CH uahkbis hau sisi 


*, :before, 


图 3.4 页面、 感 兴趣 的 字段 及 其 HTML 代 码 








在 图 3.4 中 有 大 量 的 信息 ， 但 其 中 大 部 分 部 是 布局 : logo、 搜 索 框 、 
按钮 等 。 虽 然 这 些 信息 都 很 有 用 ， 但 是 怜 虫 并 不 会 对 其 产生 兴趣 。 我 们 
可 能 感 兴趣 的 字段 ， 比 如 说 包括 房 源 的 标题 、 位 置 或 代理 商 的 电话 号 





码 ， 它 们 都 具有 对 应 的 HTML 元 素 ， 我 们 需要 定位 到 这 些 元 素 ， 然 后 使 
用 前 一 节 中 所 描述 的 流程 抽取 数据 。 那 么 ， 先 从 标题 开始 吧 (如 图 3.5 
所 示 ) 。 


< Back | United Kingdom / England / London / WestLondon / EarlsCourt / Property / Propertyto Rent / Flats&HousesforRent / Studio Apartments & Bedsits! 





Contact 44. -s 
Posting for 4+ years 





hl.space-mbs 866px x 21px £350.00pw 











Q mages Q map 
Res as 


EE ng m 
oa Boos. =i 


ok Sources Timeline ， pila Resources Audits Console 





iv class=" "grid-container 1 main 
i ="main" class="gr aan row space-ptm" itemscope itemtype="http: secre org/Product" 
“grid-col-12 hide-fully-to-m " oe "comp lementary"></as 
-coL-12 hide-fully- ne m" 
cra-12 grid-col-l-8' 
Cts space-mbs"> 


ni TF = Add Attribute ft" itenscop/tml/body/div[3/div/div[3 /main/div[2/header/h1 


Edit Attribute 
















Force Element State p offers" itemsco pets Simply a 


Edit as HTML 


P Copy as HTML >> < 
Copy CSS Path lh1 


Copy XPath 2ACopy-XPath-cor-1-«"> 


> <div class=" 
> <div class=" 
</div> 

we<div class="grid-c 








v <section class="t Delete Node temtype="http://schema.org/Person" data—q="reply-box-2"> 
:ibefore 
Y<div class="box Break on... b 


> <h2 class="tr 
> <p class="h-U  crrnill inta View 


图 3.5 ”抽取 标题 


右键 单 击 页 面 上 的 标题 ， 并 选择 Inspect Element 。 这 样 就 可 以 看 到 
相应 的 HTML 源 代码 了 。 现 在 ， 尝 试 通过 右键 单 击 并 选择 Copy XPath 
， 抽 取 标 题 的 XPath 表 达 式 。 你 会 发 现 Chrome 浏 览 器 给 我 们 的 XPath 表 
达 式 很 精确 ， 但 又 十 分 复杂 ， 因 此 该 表达 式 是 非常 脆弱 的 。 我 们 将 对 其 
进行 一 些 简化 ， 只 使 用 最 后 的 一 部 分 ， 通 过 使 用 表达 式 //h1 ， 选 择 在 
页 面 中 可 以 看 到 的 任何 H1 元 素 。 尽 管 这 种 方式 有 些 误 导 ， 因 为 我 们 并 
不 是 真 的 需要 页 面 中 的 每 一 个 HL ， 不 过 实际 上 这 里 只 有 标题 使 用 了 H1 
而 作为 优秀 的 SEO 实践 ， 每 个 页 面 应 当 只 有 一 个 H1 oR, FF AAD 
分 网 站 确实 是 这 样 的 。 


| | 


Q 


SEO 是 Search Engine Optimization 〈 搜 索引 擎 优化 ) 的 缩写 ， 即 通过 优 























化 网 站 代码 、 内 容 和 出 入 站 链接 的 流程 ， 实 现 提 供给 搜索 引擎 的 最 佳 方式 。 





我 们 来 检查 下 该 XPath 表达 式 能 否 在 scrapy shell 中 良好 运行 。 


>>> response.xpath('//h1/text()').extract() 


[u'set unique family well'] 





非常 好 ， 完 美工 作 。 你 应 该 已 经 注意 到 我 在 //hl 表达 式 的 结尾 处 
添加 了 /text() 。 如 果 想 要 只 抽取 H1 元 素 所 包含 的 文本 内 容 ， 而 不 
是 H1 元 素 自 身 的 话 ， 就 需要 使 用 到 它 。 我 们 通常 都 会 使 用 /text() 来 
获得 文本 字段 。 如 果 忽 略 它 ， 就 会 得 到 整个 元 素 的 文本 ， 包 括 并 不 需要 
的 标记 。 








>>> response.xpath('//h1').extract() 


[u'<h1 itemprop="name" class="space-mbs">set unique family well</h1>' ] 





此 时 ， 我 们 就 得 到 了 抽取 本 页 中 第 一 个 感 兴 趣 的 属性 〈 标 题 ) 的 代 


码 ， 不 过 如 果 你 观察 得 更 仔细 的 话 ， 就 会 发 现 还 有 一 种 更 好 更 简单 的 方 
法 也 可 以 做 到 。 


Gumtree 通 过 微 数据 标记 注解 它们 的 HIML。 比 如 ， 我 们 可 以 看 
到 ， 在 其 头 部 有 一 个 itemprop="name'" 的 属性 ， 如 图 3.6 所 示 。 非 常 
好 ， 这 样 我 们 融 可 以 使 用 一 个 更 简单 的 XPath 表达 式 ， 而 不 再 包含 任何 
可 视 化 元 素 了 ， 此 时 得 到 的 表达 式 为 //*[@itemprop="name"] 
[1]/text() 。 你 可 能 会 奇怪 为 什么 我 们 选择 了 包含 itemprop="name" 
的 第 一 个 元 素 。 








<h1 itemprop="name" class="space-mbs">..</h1> 


图 3.6” Gumtree 拥有 微 数据 标记 








FAS! 你 是 说 第 一 个 ?如 果 你 是 一 个 经 验 丰 富 的 程序 员 ， 可 能 已 经 
将 array[1] 作为 数组 的 第 二 个 元 素 了 。 令 人 惊讶 的 是 ，XPath 是 从 1 开始 
的 ， 因 此 array[1] 是 数组 的 第 一 个 元 素 。 

















我 们 这 么 做 ， 不 只 是 因为 temprop="name" 在 许多 不 同 的 上 下 文 
Wet ne 还 因为 Gumtree 在 其 页 面 的 “你 可 能 还 喜 
nee EBD A ies EE RBA, MAPA SRB eI 
ee 尽管 如 此 ， 这 并 不 是 一 个 大 问题 。 我 们 只 需要 选择 第 一 个 ， 
而 且 我 们 也 将 使 用 同样 的 方式 处 理 其 他 字段 。 


让 我 们 来 看 一 下 价格 。 价 格 被 包含 在 如 下 的 HTML 结 构 当 中 。 


<strong class="ad-price txt-xlarge txt-emphasis” itemprop="price"> 
£334. 39pw</strong> 





我 们 又 一 次 看 到 了 :itemprop="name" 这 种 形式 ， 太 棒 了 。 此 时 ， 
XPath 表达 式 将 会 是 //*[@itemprop="price"][1]/text() 。 我 们 来 
ww ME: 
>>> response. xpath('//*[@itemprop="price"][1]/text()').extract() 


[u'\xa3334.39pw' ] 





我 们 注意 到 ， 这 里 包含 一 些 Unicode 字 符 〈 英 镑 符号 &) ， 然 后 
征 334.39pw 的 价格 。 这 表明 数据 并 不 总 是 像 我 们 希望 的 那样 干将 ， 所 
以 可 能 还 需要 对 其 进行 一 些 清洗 的 工作 。 比 如 ， 在 本 例 中 ， 我 们 可 能 需 
要 使 用 一 个 正则 表达 式 ， 以 便 只 选择 数字 和 点 号 。 可 以 使 用 re() 方法 
做 到 这 一 要 求 ， 并 使 用 一 个 简单 的 正则 表达 陈 蔡 代 extract() 。 


>>> response. xpath('//*[@itemprop="price"][1]/text()').re('[.0-9]+') 


[u'334.39'] 

















这 里 使 用 了 一 个 response 对 象 ， 并 调用 了 它 的 xpath() 方法 来 抽取 感 
兴趣 的 值 。 不 过 ，xpath() 返回 的 值 是 什么 呢 ? 如 果 在 一 个 简单 的 XPath 表 
达 式 中 ， 不 使 用 .extract() 方法 ， 将 会 得 到 如 下 的 显示 输出 : 




















>>> response.xpath('.') 


[<Selector xpath='.' data=u'<html>\n<head>\n<meta 


charse'>] 








xpath() 返回 了 网 页 内 容 预 加 载 的 Selector 对 象 。 我 们 目前 只 使 用 了 
xpath() 方法 ， 不 过 它 还 有 男 一 个 有 用 的 方法 : css() 。xpath() 和 css() 
都 会 返回 选择 器 ， 只 有 当 调 用 extract() 或 re() 方法 的 时 候 ， 才 会 得 到 真 
实 的 文本 数组 。 这 种 方式 非常 好 用 ， 因 为 这 样 就 可 以 将 xpath() 和 css() 操 
作 串 联 起 来 了 。 比 如 ， 可 以 使 用 css() 快速 抽取 正确 的 HTML 元素。 












































>>> response.css(' .ad-price ) 


[<Selector xpath=u"descendant-or-self::*[@class and 


contains(concat(' ', normalize-space(@class), ' '), ' 


ad-price ')]" data=u'<strong class="ad-price txt-xlarge 


txt-e'>] 








请 注意 ， 在 后 台中 css() 实际 上 编译 了 一 个 xpath() 表达 式 ， 不 过 我 们 
输入 的 内 容 要 比 XPath 自 身 更 加 简单 。 接 下 来 ， 串 联 一 个 xpath() 方法 ， 只 
抽取 其 中 的 文本 。 

















>>> response.css('.ad-price').xpath('text()') 


[<Selector xpath='text()' data=u'\xa3334.39pw' >] 





后 ， 还 可 以 通过 re() 方法 ， 串 联 上 正则 表达 式 ， 以 抽取 感 兴趣 的 


S 








>>> response.css('.ad-price').xpath('text()').re('[.0- 


9]+ ) 


[u'334.39'] 























实际 上 ， 这 个 表达 式 与 原始 表达 式 相 比 ， 并 无 好 坏 之 差 。 请 把 它 当 作 一 
个 引起 思考 的 说 明 性 示例 。 在 本 书 中 ， 我 们 将 尽 可 能 保持 事物 简单 ， 同 时 也 
会 尽 可 能 多 地 使 用 虽然 有 些 老 旧 但 仍然 好 用 的 XPath。 关 键 点 是 记 
{Expath() 和 css() 返回 的 Selector 对 象 是 可 以 被 串联 起 来 的 。 为 了 获取 
真实 值 ， 可 以 使 用 extract() ， 也 可 以 使 用 re() 。 在 Scrapy 的 每 个 新 版 本 
当中 ， 都 会 围绕 这 些 类 添加 新 的 令 人 兴奋 且 高 价值 的 功能 。 相 关 的 Scrapy 文 
档 部 分 为 http://doc.scrapy.org/en/latest/topics/selectors.html 
。 该 文档 非常 优秀 ， 相 信 你 可 以 从 中 找到 抽取 数据 的 最 有 效 的 方式 。 
































描述 文本 的 抽取 也 是 相似 的 。 有 一 个 itemprop="description" 
的 属性 用 于 标示 描述 。 其 XPath 表达 式 为 //* 
[@itemprop="description"][1]/text() 。 相 似 地 ， 住 址 部 分 使 
用 itemtype="http://schema.org/ Place" 注解 ， 因 此 ，XPath 表 
达 式 为 //*[@itemtype="http://schema.org/Place"][1]/text() 


o 


同 理 ， 图 片 使 用 了 itemprop="image" 。 因 此 使 
用 //img[@itemprop="image"][1]/@src 。 这 里 需要 注意 的 是 ， 我 们 


没有 使 用 /text() ， 这 是 因为 我 们 并 不 需要 任何 文本 ， 而 是 只 需要 包含 
图 片 URL 的 src 属性 


假设 这 些 是 我 们 想 要 抽取 的 全 部 信息 ， 我 们 可 以 将 其 总 结 到 表 3.1 
中 。 








XPath 表 :; 


//*[@itemprop="name"][1]/text() 


示例 值 : [u'set unique family well'] 





//*[@itemprop="price"][1]/text() 
示例 值 〈 使 用 re() ) : [u'334.39'] 























//*[@itemprop="description"][1]/text() 
description = 
示例 值 : [u'website court warehouse\r\npool...'] 
//*[@itemtype="http://schema.org/Place"][1]/text() 
address = 
示例 值 : [u'Angel, London'] 
//*[@itemprop="image"][1]/@src 
image_urls o 
示例 值 : [u'../images/i01.jpg' ] 


现在 ， 表 3.1 就 变 得 非常 重要 了 ， 因 为 如 果 我 们 有 许多 包含 相似 信 

















奶 的 网 站 ， 则 很 可 能 需要 创建 很 多 类 似 的 肘 虫 ， 此 时 只 需 改变 前 面 的 这 


些 表 达 式 。 此 外 ， 如 果 想 要 抓 取 大 量 网 站 ， 也 可 以 使 用 这 样 一 张 表格 来 
拆 分 工作 量 。 


到 目前 为 止 ， 我 们 主要 在 使 用 HTML 和 XPath。 接 下 来 ， 我 们 将 开 
始 编写 一 些 真 正 的 Python 代码 。 


3.3 ”一 个 Scrapy 项 目 


到 目前 为 止 ， 我 们 只 是 在 通过 scrapy shelli ME, BEZA 
已 经 拥有 了 用 于 开始 第 一 个 Scrapy 项 目的 所 有 必要 组 成 部 分 ， 那 么 让 我 
们 按 下 Ctrl + D 退出 scrapy shell 吧 。 需 要 注意 的 是 ， 你 现在 输入 的 所 有 
内 容 都 将 丢失 。 显 然 ， 我 们 并 不 希望 在 每 次 候 取 某 些 东 西 的 时 候 都 要 输 
入 代码 ， 因 此 一 定 要 谨 记 scrapy shell 只 是 一 个 可 以 帮助 我 们 调试 页 面 、 
XPath 表达 式 和 Scrapy 对 象 的 工具 。 不 要 花费 大 量 时 间 在 这 里 编写 复杂 
代码 ， 因 为 一 旦 你 退出 ， 这 些 代码 就 都 会 丢失 。 为 了 编写 真实 的 Scrapy 
代码 ， 我 们 将 使 用 项 目 。 下 面 创建 一 个 Scrapy 项 目 ， 并 将 其 命名 
为 "properties"， 因 为 我 们 正在 抓 取 的 数据 是 房产 。 





$ scrapy startproject properties 


$ cd properties 


$ tree 


— properties 


| |— init__.py 


| |— items.py 


| |— pipelines. py 


| ļ— settings.py 


| [一 spiders 


| L— init__.py 


L— scrapy.cfg 


2 directories, 6 files 





Q 
提醒 一 下 ， 你 可 以 从 GitHub 中 获得 本 书 的 全 部 源 代码 。 要 下 载 该 代码 ， 
可 以 使 用 如 下 命令 : 











git clone https://github.com/scalingexcellence/ 


scrapybook 




















本 章 的 代码 在 che3 目录 中 ， 其 中 该 示例 的 代码 在 che3/properties H 
录 中 。 

















我 们 可 以 看 到 这 个 Scrapy 项 目的 目录 结构 。 命 令 scrapy 
startproject properties 创建 了 一 个 以 项 目 名 命名 的 目录 ， 其 中 包 
含 3 个 我 们 感 兴 趣 的 文件 ， 分 别 是 items.py 、pipelines.py 和 
settings.py 。 这 里 还 有 一 个 名 为 spiders 的 子 目 录 ， 目 前 为 止 该 目 
录 是 空 的 。 在 本 章 中 ， 我 们 将 主要 在 items .py 文件 和 spiders 目录 中 
工作 。 在 后 续 的 章节 里 ， 还 将 对 设置 、 管 道 和 scrapy .cfg 文件 有 更 多 
探索 。 














3.3.1 声明 item 


我 们 使 用 一 个 文件 编辑 器 打开 items .py 文件 。 现 在 该 文件 中 已 经 
包含 了 一 些 模板 代码 ， 不 过 还 需要 针对 用 例 对 其 进行 修改 。 我 们 将 重 定 
义 PropertiesItem 类 ， 添 加 表 3.2 中 总 结 出 来 的 字段 。 





我 们 还 会 添加 几 个 字段 ， 我 们 的 应 用 在 后 续 会 用 到 这 些 字 段 (这 样 
之 后 就 不 需要 再 修改 这 个 文件 了 ) 。 本 书后 续 的 内 容 会 深入 解释 它们 。 
需要 重点 注意 的 一 个 事情 是 ， 我 们 声明 一 个 字段 并 不 意味 着 我 们 将 在 每 
个 不 虫 中 都 填充 该 字段 ， 或 是 全 部 使 用 它 。 你 可 以 随意 添加 任何 你 感觉 
合适 的 字段 ， 因 为 你 可 以 在 之 后 更 正 它 们 。 














可 计算 字 


段 


Python 表达 式 























图 像 管道 将 会 基于 image_urls 自动 填充 该 字段 。 可 以 在 后 续 的 章节 中 了 解 
更 多 相关 内 容 























我 们 的 地 理 编码 管道 将 会 在 后 面 填充 该 字段 。 可 以 在 后 续 的 章节 中 了 解 
更 多 相关 的 内 容 

















location 





我 们 还 会 添加 一 些 管 理 字段 〈 见 表 3.3) 。 这 些 字段 不 是 特定 于 茶 
个 应 用 程序 的 ， 而 是 我 个 人 感 兴趣 的 字段 ， 可 能 会 在 未 来 帮助 我 调试 疏 
虫 。 你 可 以 在 项 目 中 选择 其 中 的 一 些 字 段 ， 当 然 也 可 以 不 选择 。 如 果 你 
仔细 观察 这 些 字 段 ， 束 会 明白 它们 可 以 让 我 清楚 何 地 (server、url) 、 
何 时 (date〉、 如 何 (spider) 执行 的 抓 取 。 它 们 还 可 以 自动 完成 一 些 任 
务 ， 比 如 使 iem 失 效 、 规 划 新 的 抓 取 运 代 或 是 删除 来 自 有 问题 的 爬虫 的 
item。 如 果 你 还 不 能 理解 所 有 的 表达 式 ， 尤 其 是 server 的 表达 式 ， 也 不 
用 担心 。 当 我 们 进入 到 后 面 的 章节 时 ， 这 些 都 会 变 得 越 来 越 清楚 。 








表 3.3 


response.url 




















示例 值 : "http://web.../property_eeeeee@. html' 





project self.settings.get('BOT_NAME' ) 


示例 值 : "properties' 


self.name 


示例 值 : 'basic' 


spider 


socket.gethostname() 
server 


示例 值 : "scrapyserver1' 


datetime. datetime. now() 


示例 值 : datetime.datetime(2015, 6, 25...) 





给 出 字段 列表 之 后 ， 再 去 修改 并 目 定 义 scrapy startproject 为 
我 们 创建 的 PropertiesItem 类 ， 就 会 变 得 很 容易 。 在 文本 编辑 器 中 ， 
修改 properties/items .py 文件 ， 使 其 包含 如 下 内 容 : 








from scrapy.item import Item, Field 


class PropertiesItem(Item): 
# Primary fields 
title = Field() 
price = Field() 
description = Field() 
address = Field() 
image_urls = Field() 


# Calculated fields 
images = Field() 
location = Field() 


# Housekeeping fields 
url = Field() 

project = Field() 
spider = Field() 
server = Field() 


date = Field() 


由 于 这 实际 上 是 我 们 在 文件 中 编写 的 第 一 个 Python 代码 ， 因 此 需要 
重点 指出 的 是 ，Python 使 用 绾 进 作 为 其 语法 的 一 部 分 。 在 每 个 字段 的 起 
始 部 分 ， 会 有 精确 的 4 个 空格 或 1 个 制 表 符 ， 这 一 点 非常 重要 。 如 果 你 在 
其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 3 个 空格 ， 就 会 出 现 语法 错 
误 。 如 果 你 在 其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 制 表 符 ， 同 
样 也 会 产生 语法 错误 。 这 些 空格 在 PropertiesItem 类 下 ， 将 字段 声明 
组 织 到 了 一 起 。 其 他 语言 一 般 使 用 大 括号 《〈{f}) 或 特殊 的 关键 词 〈 如 
begin-end ) 来 组 织 代 码 ， 而 Python 使 用 空格 。 








3.3.2 ”编写 爬虫 

我 们 已 经 在 半路 上 了 。 现 在 ， 我 们 需要 编写 爬虫 。 通 浓 ， 我 们 会 为 
每 个 网 站 或 网 站 的 一 部 分 〈 如 果 网 站 非常 大 的 话 ) BENE, EH 
代码 实现 了 完整 的 UR? IM 流程， 我 们 很 快 就 可 以 看 到 。 





Q 

什么 时 候 使 用 爬虫， 什么 时 候 使 用 项 目 呢 ? 项 目 是 由 Item AF ee 
组 成 的 。 如 果 有 很 多 网 站 ， 并 且 需 要 从 中 抽取 相同 类 型 的 Item ， 比 如 : 房 
产 ， 那 么 所 有 这 些 网 站 都 可 以 使 用 同一 个 项 目 ， 并 且 为 每 个 源 / 网 站 使 用 一 
个 怜 虫 。 反 之 ， 如 果 要 处 理 图 书 及 房产 这 两 种 不 同 的 源 时 ， 则 应 该 使 用 不 同 
的 项 目 。 















































当然 ， 可 以 在 文本 编辑 器 中 从 头 开始 创建 一 个 朴 虫 ， 不 过 为 了 减少 


一 些 输入 ， 更 好 的 方法 是 使 用 scrapy genspider 命令 ， 如 下 所 示 。 


$ scrapy genspider basic web 


Created spider 'basic' using template 'basic' in module: 


properties.spiders.basic 





现在 ， 如 果 再 次 运行 tree 命令 ， 就 会 注意 到 与 之 前 相 比 唯一 的 不 
同 是 在 properties/spiders 目录 中 增加 了 一 个 新 文件 basic.py 。 前 
面 的 命令 所 做 的 工作 束 是 创建 了 一 个 名 为 "basic" WIWER, JH. 
TAME He Be BR HA A eM web 域名 下 的 URL 。 如 有 果 需 要 的 话 ， 可 以 很 容 
易 地 移 除 这 个 限制 ， 不 过 目前 来 说 没有 问题 。 疏 虫 使 用 "basic'" 模板 创 
建 。 你 可 以 通过 输入 scrapy genspider-1 来 查看 其 他 可 用 的 模板 ， 然 
后 在 执行 scrapy genspider 时 ， 通 过 -t 参数 ， 使 用 任意 其 他 模板 创 
建 怜 虫 。 在 本 章 稍 后 的 部 分 ， 我 们 将 会 看 到 一 个 示例 。 





Scrapy 有 许多 子 目录 。 我 们 一 般 假设 你 位 于 包含 scrapy .cfg 文件 的 目 
录 中 。 这 是 项 目的 “顶级 ”目录 。 现 在 ， 每 当 我 们 引用 Python“ 包 ”和 “ 模 
块 ? 时 ， 它 们 就 是 以 映射 目录 结构 的 方式 设置 的 。 比 如 ， 输 出 提 到 了 
properties.spiders.basic, ， 就 是 指 properties/spiders 目录 中 的 
basic.py 文件 。 我 们 早 前 定义 的 PropertiesItem 类 是 
fEproperties.items 模块 中 ， 该 模块 对 应 的 就 是 properties 目录 中 的 























| items .py 文件 。 | 


如 果 查 看 properties/spiders/basic.py 文件 ， 可 以 看 到 如 下 代 
Wre 


import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed domains = ["web"] 
start_urls = ( 
"http: //www.web/", 
) 


def parse(self, response): 
pass 





import 语句 能 够 让 我 们 使 用 Scrapy 框 架 中 已 有 的 类 。 下 面 是 扩展 
自 scrapy.Spider 的 BasicSspider 类 的 定义 。 通 过 “扩展 ”的 方式 ， 尽 
管 我 们 实际 上 没有 写 任何 代码 ， 但 是 该 类 已 经 “继承 ?了 Scrapy 框 架 中 的 
Spider 类 的 相当 一 部 分 功能 。 这 样 ， 就 可 以 只 额外 编写 少量 的 代码 
行 ， 而 获得 一 个 完整 运行 的 仆 虫 了 。 然 后 ， 我 们 可 以 看 到 一 些 扑 虫 的 参 
数 ， 比 如 它 的 名 字 以 及 我 们 允许 其 仆 取 的 域名 。 最 后 是 空 函数 parse() 
的 定义 ， 该 函数 包含 了 两 个 参数 ， 分 别 是 self 和 response 对 象 。 通 过 
使 用 self 引用 ， 我 们 就 可 以 使 用 爬虫 中 感 兴趣 的 功能 了 。 而 另 一 个 对 
象 response ， 我 们 应 该 很 熟悉 ， 它 就 是 我 们 在 scrapy shell 中 使 用 过 的 
response 对 象 。 














al 


Q 














这 是 你 的 代码 
的 。 即 使 在 最 坏 的 情况 下 ， 你 还 可 以 使 


你 的 爬虫 。 不 要 害怕 修 改 它 ， 你 不 会 真 的 把 事 性 
































用 rmproperties/spiders/basic.py* 删除 文件 ， 然 后 再 重新 生成 。 
发 挥 吧 ! 








dea Al 


尽情 





好 了 ， 让 我 们 开始 改造 吧 。 首 先 ， 要 使 用 在 scrapy shell 中 使 用 过 的 
那个 URL， 对 应 地 设置 到 start_urls Bach. Ala, EAE file 








义 的 方法 log() ， 输 出 在 基本 字段 表 中 总 结 的 所 有 内 容 。 修 改 


后 ，properties/spiders/basic.py 的 代码 如 下 所 示 。 


import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_90000ee.htm1', 
) 


def parse(self, response): 

self.log("title: %s" % response. xpath( 
'//*[@itemprop="name" ][1]/text()').extract()) 

self.log("price: %s" % response. xpath( 
'//*[@itemprop="price" ][1]/text()').re('[.0-9]+')) 

self.log("description: %s" % response. xpath( 
'//*[@itemprop="description" ][1]/text()').extract()) 

self.log("address: %s" % response. xpath( 
"//*[@itemtype="http://schema.org/' 
"Place" |[1]/text()').extract()) 

self.log("image urls: %s" % response. xpath( 
'//*[@itemprop="image" ][1]/@src').extract() ) 


vl 


Q 





我 将 会 不 时 地 修改 格式 ， 以 便 在 屏幕 和 纸张 中 都 能 很 好 地 显示 。 这 并 不 











| 意味 着 它 有 什么 特殊 的 含义 。 | 


等 了 这 么 久 ， 终 于 到 了 运行 仆 虫 的 时 候 了 。 我 们 可 以 使 用 命令 
scrapy crawl LAKME RA 4 i RiS {TIME 





$ scrapy crawl basic 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider opened 


DEBUG: Crawled (200) <GET http://...000.html> 


DEBUG: title: [u'set unique family well’ ] 


DEBUG: price: [u'334.39' ] 


DEBUG: description: [u'website...'] 


DEBUG: address: [u'Angel, London' ] 


DEBUG: image_urls: [u'../images/i@1. jpg’ ] 


INFO: Closing spider (finished) 


| űġűOE 


非常 好 ! 不 要 被 大 量 的 日 志 行 吓 倒 。 我 们 将 会 在 后 续 的 章节 中 更 详 
细 地 研究 其 中 的 一 部 分 ， 不 过 对 于 现在 而 言 ， 只 需要 注意 到 所 有 使 用 
XPath 表达 式 收集 到 的 数据 确实 能 够 通过 这 个 简单 的 爬虫 代码 抽取 出 来 
就 可 以 了 。 

让 我 们 再 来 试验 一 下 另 一 个 命令 : scrapy parse 。 它 允许 我 们 使 


用 "最 合适 ”的 爬虫 来 解析 参数 中 给 定 的 任意 URL。 我 不 喜欢 抱 有 代 幸 心 
理 ， 所 以 我 们 使 用 它 结合 --spider 参 数 来 设置 爬虫 。 


$ scrapy parse --spider=basic http://web:9312/properties/property_000001. 


html 








你 会 看 到 输出 和 之 前 是 相似 的 ， 只 不 过 现在 是 另 一 套房 产 。 


scrapy parse 同样 也 是 一 个 相当 方便 的 调试 工具 。 在 任何 情况 下 ， 如 
果 你 想 “ 认 真 ” 抓 取 的 话 ， 应 当 使 用 主 命令 scrapy crawl 。 



































3.3.3 HH Titem 





我 们 将 会 对 前 面 的 代码 进行 少量 修改 ， 以 填充 PropertiesItem 。 


你 将 会 看 到 ， 尽 管 修 改 非常 轻微 ， 但 是 会 “解锁 ?大量 的 新 功能 。 





首先 ， 需 要 引入 PropertiesItem 类 。 如 前 所 述 ， 它 
在 properties 目录 的 items .py 文件 中 ， 也 就 是 properties.items 
模块 中 。 我 们 回 到 properties/spiders/basic.py 文件 ， 使 用 如 下 命 
令 引 入 该 模块 。 


from properties.items import PropertiesItem 


然后 需要 进行 实例 化 ， 并 返回 一 个 对 象 。 这 非常 简单 。 在 parse() 
方法 中 ， 可 以 通过 添加 item = PropertiesItem() 语句 创建 一 个 新 的 
item， 然 后 可 以 按 如 下 方式 为 其 字段 分 配 表达 式 。 


item[ 'title'] = 


response. xpath('//*[@itemprop="name" ][1]/text()').extract() 





最 后 ， 使 用 return item 返回 item。 最 新 版 的 
properties/spiders/basic. py 代码 如 下 所 示 。 





import scrapy 
from properties.items import PropertiesItem 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed _domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_9eeeee.htm1', 
) 


def parse(self, response): 
item = PropertiesItem() 
item['title'] = response. xpath( 
'//*[@itemprop="name" ][1]/text()').extract() 
item['price'] = response. xpath( 


'//*[@itemprop="price"][1]/text()').re('[.0-9]+' ) 
item['description'] = response.xpath( 
'//*[@itemprop="description" ][1]/text()').extract() 
item['address'] = response. xpath( 
"//*[@itemtype="http://schema.org/' 
"Place" ][1]/text()').extract() 
item['image_urls'] = response. xpath( 
'//*[@itemprop="image" ][1]/@src').extract() 
return item 





现在 ， 如 果 你 再 像 之 前 那样 运行 scrapy crawl basic, WARIL 
一 个 非常 小 但 很 重要 的 区 别 。 我 们 不 再 在 日 志 中 记录 抓 取 值 〈 所 以 没有 
包含 字段 值 的 DEBUG: 行 了 ) ， 而 是 看 到 如 下 的 输出 行 。 








DEBUG: Scraped from <200 
http://...0e0.htm1> 
{'address': [u'Angel, London'], 
"description': [u'website ... offered'], 


"image_urls': [u'../images/i@1.jpg'], 
'price': [u'334.39'], 
"title': [u'set unique family well']} 





这 是 从 本 页 面 抓 取 得 到 的 PropertiesItem 。 非 常 好 ， 因 为 Scrapy 
是 围绕 着 Items 的 概念 构建 的 ， 也 束 是 说 你 现在 可 以 使 用 后 续 章 节 中 介 
绍 的 管道 ， 对 其 进行 过 滤 和 丰富 了 了， 并且 可 以 通过 “Feed exports” 将 其 以 
不 同 的 格式 导出 存储 到 不 同 的 地 方 。 


3.3.4 ”保存 文件 
请 尝试 如 下 的 取 示例 。 











$ scrapy crawl basic -o items.json 


$ cat items.json 


[{"price": ["334.39"], "address": ["Angel, London"], "description": 


["website court ... offered"], "image urls": ["../images/i01.jpg"], 


"title": ["set unique family well"]}] 


$ scrapy crawl basic -o items.jl 


$ cat items.jl 


{"price": ["334.39"], "address": ["Angel, London"], "description": 


["website court ... offered"], "image urls": ["../images/i01.jpg"], 


"title": ["set unique family well"]} 


$ scrapy crawl basic -o items.csv 


$ cat items.csv 


description, title,url,price,spider, image urls... 


",..offered",set unique family well, ,334.39,,../images/i01. jpg 


$ scrapy crawl basic -o items.xml 


$ cat items.xml 


<?xml version="1.0" encoding="utf-8" ?> 


<items><item><price><value>334.39</value></price>...</item></items> 








我 们 不 需要 编写 任何 额外 的 代码 ， 就 可 以 保存 为 这 些 不 同 的 格式 。 
Scrapy 在 妖 后 识别 你 想 要 输出 的 文件 扩展 名 ， 并 以 适当 的 格式 输出 到 文 








件 中 。 前 面 的 格式 覆盖 了 一 些 最 第 见 的 用 例 。CSV 和 XML 文件 非常 流 

行 ， 因 为 类 似 微软 Excel 的 电子 表格 程序 可 以 直接 打开 它们 。JSON 文 件 
在 网 上 非常 流行 ， 原 因 是 它们 富有 表现 力 而 且 与 JavaScript 的 关系 相当 密 
切 。JSON 与 JSON 行 (JSON Line) 格式 的 轻微 不 同 是 ，.json 文件 是 

在 一 个 大 数组 中 存储 JSON 对 象 的 。 这 就 意味 着 如 果 你 有 一 个 1GB 的 文 

件 ， 你 可 能 不 得 不 在 使 用 典型 的 解析 器 解析 之 前 ， 将 其 全 部 存 入 内 存 当 
中 。 而 .jl 文件 则 是 每 行 包含 一 个 JSON 对 象 ， 所 以 它们 可 以 被 更 高 效 

地 读 取 。 











将 你 生成 的 文件 保存 到 文件 系统 之 外 的 地 方 也 很 容易 。 比 如 ， 通 过 
使 用 如 下 命令 ，Scrapy 可 以 自动 将 文件 上 传 到 FTP 或 53 存 储 桶 中 。 


$ scrapy crawl basic -o "ftp://user:pass@ftp.scrapybook.com/items.json " 


$ scrapy crawl basic -o "s3://aws_key:aws_secret@scrapybook/items.json" 





需要 注意 的 是 ， 除 非 任 证 和 URL 都 更 新 为 与 有 效 的 主机 /S3 提 供 商 
相 匹 配 ， 和 否则 该 示例 无 法 工作 。 





Q 

我 的 MySQL 驱 动 在 哪里 ?起 初 ， 我 也 对 Scrapy 缺 少 针 对 MySQL 或 其 他 
数据 库 的 内 置 支持 感到 惊讶 。 而 实际 上 ， 没 有 什么 是 内 置 的 ， 这 与 Scrapy 的 
思考 方式 是 完全 违背 的 。Scrapy 的 目标 是 快速 和 可 扩展 。 它 使 用 了 很 少 的 
CPU， 以 及 尽 可 能 高 的 入 站 带宽 。 从 性 能 的 角度 来 看 ， 将 数据 插入 到 大 部 分 
关系 型 数据 库 将 会 是 一 场 灾 难 。 当 需要 将 item 插 入 到 数据 库 时 ， 必 须 将 其 先 
存储 到 文件 当中 ， 然 后 再 使 用 批量 加 载 机 制导 入 它们 。 在 第 9 章 中 ， 我 们 将 
会 看 到 多 种 高 效 的 方式 ， 用 来 将 独立 的 item 导 入 到 数据 库 中 。 




























































































这 里 需要 注音 的 为 一 件 事 是 ， 如 末 你 现在 尝试 使 用 scrapy parse 
， 它 会 回 你 显示 已 经 抓 取 的 item， 以 及 你 的 仆 取 生成 的 新 请 求 〈 本 例 中 








$ scrapy parse --spider=basic http://web:9312/properties/property_000001. 


html 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider closed (finished) 


>>> STATUS DEPTH LEVEL 1 <<< 


# Scraped Items -= 


[{'address': [u'Plaistow, London'], 


‘description’: [u'features'], 


"image_urls': [u'../images/i@2.jpg'], 


‘price’: [u'388.03'], 


"title': [u'belsize marylebone...deal']}] 


# Requests ------------------------------------------------ 


[] 





在 调试 给 出 意料 之 外 的 结果 的 URL 时 ， 你 会 更 加 感激 scrapy 


parse 。 





3.3.5 “清理 item 装 载 器 与 管理 字段 


蒜 喜 ， 你 在 创建 基础 朴 虫 方面 做 得 不 错 ! 下 面 让 我 们 做 得 更 专业 一 


HENE, 


首先 ， 我 们 使 用 一 个 强大 的 工具 类 一 一 ItemLoader ， 以 蔡 代 那些 
杂乱 的 extract() 和 xpath() 操作 。 通 过 使 用 该 类 ， 我 们 的 parse() 
方法 会 按 如 下 进行 代码 变更 。 








def parse(self, response): 
l = ItemLoader(item=PropertiesItem(), response=response) 


m= 


.add_xpath('title', '//*[@itemprop="name"][1]/text()') 

.add_xpath('price', './/*[@itemprop="price"]' 
'[1]/text()', re='[,.0-9]+') 

.add_xpath('description', '//*[@itemprop="description"]' 
'[1]/text()') 

.add_xpath('address', '//*[@itemtype=' 
'"http://schema.org/Place"][1]/text()') 

.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src') 


= 


m 


= 


m 


return 1.load_item() 








好 多 了 ， 是 不 是 ? 不过， 这 种 写法 并 不 只 是 在 视觉 上 更 加 舒适 ， 它 
还 非 第 明确 地 声明 了 我 们 意图 去 做 的 事情 ， 而 不 会 将 其 与 实现 细 市 混 活 
起 来 。 这 就 使 得 代码 具有 更 好 的 可 维护 性 以 及 目 描述 性 。 











ItemLoader 提供 了 许多 有 趣 的 结合 数据 及 对 数据 进行 格式 化 和 清 

洗 的 方式 。 请 注意 ， 此 类 功能 的 开发 非常 活跃 ， 因 此 请 碍 疝 Scrapy 优 秀 
的 官方 文档 来 发 现 使 用 它们 的 更 高 效 的 方式 ， 文 档 地 址 为 
http://doc.scrapy.org/en/latest/topics/loaders.html 
> Itemloaders iH [Fl AY Mb BESS (UE X Path/CSS AIA SUN (Ho Mb F aS 

是 一 个 快速 而 又 简单 的 函数 。 处 理 器 的 一 个 例子 是 Join() 。 假 设 你 已 
经 使 用 类 似 //p 的 XPath 表达 式 选 取 了 很 多 个 段落 ， 该 处 理 器 可 以 将 这 
些 段 落 结合 成 一 个 条 目 。 男 一 个 非常 有 意思 的 处 理 器 是 MapCompose() 
。 通 过 该 处 理 器 ， 你 可 以 使 用 任意 Python 函数 或 Python 函数 链 ， 以 实现 
复杂 的 功能 。 比 如 ，MapCompose(float) 可 以 将 字符 串 数据 转换 为 数 
值 ， 而 MapCompose(Unicode.strip，Unicode.title) 可 以 删除 多 
余 的 空白 符 ， 并 将 字符 串 格式 化 为 每 个 单词 均 为 站 字母 大 写 的 样式 。 让 
我 们 看 一 些 处 理 器 的 例子 ， 如 表 3.4 所 示 。 











表 3.4 


| 


























MapCompose(unicode.strip) | 去 除 首 


MapCompose(unicode.strip, jMapCompose (unicode .Strip) 相同 ， 


unicode. title) 标题 格式 





MapCompose(lambda i: 


i.replace 将 字符 串 转 为 数值 ， 并 忽略 可 能 存在 的 ,字符 


(，，”)，float) 


MapCompose(lambda i: 


以 response.url 为 基础 ， 将 UREL 相 对 路 径 转 换 为 URL 绝 对 
路 径 


urljoin (response.url, i)) 











urlparse. 





你 可 以 使 用 任何 Python 表达 式 作 为 处 理 器 。 可 以 看 到 ， 我 们 可 以 很 
容易 地 将 它们 一 个 接 一 个 地 连接 起 来 ， 比 如 ， 我 们 前 面 给 出 的 去 除 首 尾 

空白 符 以 及 标题 化 的 例子 。unicode.strip() 和 unicode.title() 在 
某 种 意义 上 来 说 比较 简单 ， 它 们 只 有 一 个 参数 ， 并 且 也 只 有 一 个 返回 续 
果 。 我 们 可 以 在 MapCompose 处 理 器 中 直接 使 用 它们 。 而 另 一 些 函数 ， 
像 replace() 或 ur1join() ， 就 会 稍微 有 点 复杂 ， 它 们 需要 多 个 参 
数 。 对 于 这 种 情况 ， 我 们 可 以 使 用 Python 的 “lambda 表达 式 ”。lambda 表 
达 式 是 一 种 简洁 的 函数 。 比 如 下 面 这 个 简洁 的 lambda 表 达 式 。 





myFunction = lambda i: i.replace(',', '') 





FY LAAN 


def myFunction(i): 
return i.replace(',', '') 


通过 使 用 lambda， 我 们 将 类 似 replace() 和 ur1ljoin() 这 样 的 函 
数 包装 在 只 有 一 个 参数 及 一 个 返回 结果 的 函数 中 。 为 了 能 够 更 好 地 理解 
表 3.4 中 的 处 理 器 ， 下 面 看 几 个 使 用 处 理 器 的 例子 。 使 用 scrapy shell 
打开 任意 URL， 然 后 尝试 如 下 操作 。 





>>> from scrapy.loader.processors import MapCompose, Join 


>>> Join()(['hi', ‘John']) 


u'hi John' 


>>> MapCompose(unicode.strip)([u' I',u' am\n']) 


[u'I', u'am'] 


>>> MapCompose(unicode.strip, unicode.title)([u'nIce cODe' ]) 


[u'Nice Code’ ] 


>>> MapCompose(float)(['3.14']) 


[3.14] 


>>> MapCompose(lambda i: i.replace(',', ''), float)(['1,400.23']) 


[1400.23] 


>>> import urlparse 


>>> mc = MapCompose(lambda i: urlparse.urljoin('http://my.com/test/abc', 


i)) 


>>> mc(['example.html#check']) 


['http://my.com/test/example.html#check'] 


>>> mc(['http://absolute/url#help']) 


['http://absolute/url#help'] 





1X FARR SBE E ADF A ee BE a DE, HR 
APTN XPath/CSS45 YET a AEE. BE, TEMG HHP EA LE 
的 处 理 器 ， 并 按照 我 们 想 要 的 方式 输出。 





def parse(self, response): 

l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 

l.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[,.0-9]+') 

l.add_xpath('description', '//*[@itemprop="description" ]' 
"[1]/text()', MapCompose(unicode.strip), Join()) 

l.add_xpath('address', 


'//*[@itemtype="http://schema.org/Place"][1]/text()', 
MapCompose(unicode. strip) ) 

l.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src', 
MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 





完整 列表 将 会 在 本 章 后 续 部 分 给 出 。 当 你 使 用 我 们 目前 开发 的 代码 
运行 scrapy crawl basic 时 ， 可 以 得 到 更 加 整洁 的 输出 值 。 


"price': [334.39], 


"title': [u'Set Unique Family Well'] 





最 后 ， 我 们 可 以 通过 使 用 add_value() 方法 ， 添 加 Python 计算 得 出 
的 单个 值 〈 而 不 是 XPathMCSS 表 达 式 ) 。 我 们 可 以 用 该 方法 设置 “管理 字 
段 *， 比 如 URL、 疏 虫 名 称 、 时 间 惟 等。 我 们 还 可 以 直接 使 用 管理 字段 
表 中 总 结 出 来 的 表达 式 ， 如 下 所 示 。 
.add_value('url', response.url) 


.add_value('project', self.settings.get('BOT_NAME')) 
.add_value('spider', self.name) 


.add_value('server', socket.gethostname() ) 
.add_value('date', datetime.datetime.now()) 





为 了 能 够 使 用 其 中 的 某 些 函数 ， 请 记得 引入 datetime 和 socket 模 
块 。 





好 了 ! 我 们 现在 已 经 得 到 了 非常 不 错 的 Item 。 此 刻 ， 你 的 第 一 感 





党 可 能 是 所 做 的 这 些 都 很 复 汪 ， 你 可 能 想 要 知道 这 些 工 作 是 不 是 值得 付 
出 努力 。 答 案 当然 是 值得 的 一 一 这 是 因为 ， 这 就 是 你 为 了 从 页 面 抽取 数 
据 并 将 其 存储 到 Item 中 几乎 所 有 需要 知道 的 东西 。 如 宁 你 从 零 开 始 编 
写 ， 或 者 使 用 其 他 语言 ， 该 代码 通 闻 都 会 非常 难看 ， 而 且 很 快 就 会 变 得 
不 可 维护 。 而 使 用 Scrapy 时 ， 只 需要 仅仅 25 行 代码 。 该 代码 十 分 简洁 ， 

用 于 表明 意图 ， 而 不 是 实现 细节 。 你 清楚 地 知道 每 一 行 代码 都 在 做 什 

么 ， 并 且 它 可 以 很 容易 地 修改 、 复 用 及 维护 。 




















你 可 能 产生 的 另 一 个 感觉 是 所 有 的 处 理 器 以 及 ItemLoader 并 不 值 
得 去 努力 。 如 果 你 是 一 个 经 验 丰富 的 Python 开发 者 ， 可 能 会 觉得 有 些 不 
舒服 ， 因 为 你 必须 去 学 习 新 的 类 ， 来 实现 通常 使 用 字符 串 操作 、lambda 
表达 式 以 及 列表 推导 式 就 可 以 完成 的 操作 。 不 过 ， 这 只 是 ItemLoader 
及 其 功能 的 简要 概述 。 如 果 你 更 加 深入 地 了 解 它 ， 就 不 会 再 回头 
了 。ItemLoader 和 处 理 器 是 基于 编写 并 文 持 了 成 干 上 万 个 爬虫 的 人 们 
的 抓 取 需求 而 开发 的 工具 包 。 如 果 你 准备 开发 多 个 爬虫 的 话 ， 就 非常 值 
得 去 学 习 使 用 它们 。 


3.3.6 ”创建 contract 


contract 有 点 像 为 候 虫 设计 的 单元 测试 。 它 可 以 让 你 快速 知道 哪里 
有 运行 异常 。 例 如 ， 假 设 你 在 几 个 星期 之 前 编写 了 一 个 抓 取 程 序 ， 其 中 
包含 几 个 候 虫 ， 今 天 想 要 检查 一 下 这 些 候 虫 是否 仍 然 能 够 正常 工作 ， 就 
可 以 使 用 这 种 方式 。contract 包 含 在 紧 挨 着 函数 名 的 注释 〔 即 文档 字符 
O 中 ， 并 且 以 @ 开 头 。 下 面 来 看 几 个 contract 的 例子 。 








def parse(self, response): 
'" This function parses a property page. 


@url http://web:9312/properties/property 868686606.html 
@returns items 1 

@scrapes title price description address image urls 
@scrapes url project spider server date 








上 述 代码 的 含义 是 ， 检 查 该 URL， 并 找到 我 列 出 的 字段 中 有 值 的 
个 Item。 现 在 ， 当 你 运行 scrapy check 时 ， 就 会 去 检查 contract 是 否 能 
够 满足 。 


$ scrapy check basic 


Ran 3 contracts in 1.646s 





MRR uri FRATE GEE RAT RAKE) ， 你 会 得 到 一 个 失 
败 描述 





FAIL: [basic] parse (@scrapes post-hook) 


ContractFail: ‘url’ field is missing 


[L CR 


contract 失 败 的 原因 可 能 是 爬虫 代码 无 法 运行 ， 或 者 是 你 要 检查 的 
URE 的 XPath 表达 式 已 经 过 时 了 。 虽 然 结 果 并 不 详尽 ， 但 它 是 抵御 坏 代 
码 的 第 一 道 灵巧 的 防线 。 


综合 上 面 的 内 容 ， 下 面 给 出 我 们 的 第 一 个 基础 肘 虫 的 代码 。 





from scrapy.loader.processors import MapCompose, Join 
from scrapy.loader import ItemLoader 

from properties.items import PropertiesItem 

import datetime 

import urlparse 

import socket 

import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed _domains = ["web"] 


# Start on a property page 
start_urls = ( 

"http: //web:9312/properties/property_9e0e00.htm1', 
) 


def parse(self, response): 
"=" This function parses a property page. 
@url http://web:9312/properties/property_200000. html 
@returns items 1 
@scrapes title price description address image urls 
@scrapes url project spider server date 
# Create the loader using the response 
l = ItemLoader(item=PropertiesItem(), response=response) 


# Load fields using XPath expressions 
l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 
l.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), 
float), 
re='[,.0-9]+') 
l.add_xpath('description', '//*[@itemprop="description" ]' 


"[1]/text()', 

MapCompose(unicode.strip), Join()) 
.add_xpath('address', 

"//*[@itemtype="http://schema.org/Place"]' 

'[1]/text()', 

MapCompose(unicode.strip)) 
.add_xpath('image_urls', '//*[@itemprop="image"]' 

'[1]/@src', MapCompose( 

lambda i: urlparse.urljoin(response.url, i))) 


m= 


= 


Housekeeping fields 

.add_value('url', response.url) 

.add value('project', self.settings.get('BOT_NAME')) 
.add value('spider', self.name) 

.add value('server', socket.gethostname() ) 

.add value('date', datetime.datetime.now()) 


# 
1 
1 
1 
1 
1 


return 1.load_item() 





3.4 ”抽取 更 多 的 URL 


到 目前 为 止 ， 我 们 使 用 的 只 是 设置 在 爬虫 的 start_urls 属性 中 的 
单一 URL。 而 该 属性 实际 为 一 个 元 组 ， 我 们 可 以 人 硬 编码 写 入 更 多 的 
URL， 如 下 所 示 。 


start_urls = ( 
"http: //web:9312/properties/property_000000.htm1', 
"http: //web:9312/properties/property_000001.htm1', 


"http: //web:9312/properties/property_000002.htm1', 





这 种 写法 可 能 不 会 让 你 太 激 动 。 不 过 ， 我 们 还 可 以 使 用 文件 作为 
URL 的 源 ， 写 法 如 下 所 示 。 


start urls = [i.strip() for i in 


open('todo.urls.txt').readlines()] 





这 种 写法 其 实 也 不 那么 令 人 激动 ， 但 它 确实 管用 。 更 经 党 发 生 的 情 
况 是 感 兴趣 的 网 站 中 包含 一 些 索 引 页 及 房 源 页 。 比 如 ，Gumtree 就 包含 
了 如 图 3.7 所 示 的 索引 页 ， 其 地 址 为 


http://www.gumtree.com/flats-houses/london 。 






Login Help MyGumtree v (+] Postan ad 


$ FS london +0 miles + o 







93,495 ads in Property, London Most recent first e~ 





Q refine £330pw 
Just now 
Keyword 
sa Westminster, Londo! * 
Search title & description 
一 -一 一 ee ee i ER £350pw 
Search only: Just now 
Urgent ads 
| Feature ads 9 we Earls Court, London or 
Ads with pictures Ti pa s gi nā aman nna mats mannna tammm £295 
= m next page pa 
U 二 Just now 
cer 
Earls Court, London * 





Categories 
All Categories 
Property x 


图 3.7 Gumtree 的 索引 页 





一 个 上 典型 的 索引 页 会 包含 许多 到 房 源 页 面 的 链接 ， 以 及 一 个 能 够 让 
你 从 一 个 索引 页 前 往 为 一 个 索引 页 的 分 页 系统 。 





因此 ， 一 个 典型 的 爬虫 会 癌 两 个 方 问 移动 〈 见 图 3.8) : 








sw ~ 
wrt EE Sete cod tens Item S 
isme sp He 











图 3.8 ARAN fal Be oh FS TE 


。 横 同一 一 从 一 个 索引 页 到 为 一 个 索引 页 ; 
© 纵 问 一 一 从 一 个 索引 页 到 房产 页 并 抽取 Item 。 








在 本 书 中 ， 我 们 将 前 者 称 为 水 平息 取 ， 因 为 这 种 情况 下 是 在 同一 
层级 下 疏 取 页 面 《 比 如 索引 页 ) ;而 将 后 者 称 为 垂直 疏 取 ， 因 为 该 方 
式 是 从 一 个 更 高 的 层级 〈 比 如 索引 页 ) 到 一 个 更 低 的 层级 《比如 房 源 
页 ) 。 


实际 上 ， 它 比 听 起 来 更 加 容易 。 我 们 所 有 需要 做 的 事情 就 是 再 增加 
两 个 XPath 表达 式 。 对 于 第 一 个 表达 式 ， 碳 键 单 击 Next Page 按钮 ， 可 以 
注意 到 URL 包 含 在 一 个 链接 中 ， 而 该 链接 又 是 在 一 个 拥有 类 名 next 的 


1i 标签 


式 //*[contains(@class,"next")]//@href , WEA) UREZ 








Earls Court, London 


s0 


Categories 


All Categories 
Property x 
For Sale 
Land, Farms & Estates 
ToRent 


| Network Sources Timeline Profiles Resources Audits Console 


</div> 
> <aside class="grid-col-m-5 hide-fully-to-m hide-fully-from-xl space-phn 
srp-mpu-btm" role="complementary">..</aside> 
w <div class="grid-col-12"> 

<nav class="pagination txt-center pagination-smaller" data-pagination="pagination-main-srp-1"> 

Y <ul class="btn-group"> 

page-first hide-fully-to-l is-active">..</li> 
dots hide-fully-from-1L">..</li> 
hide-fully-to-l">.„</li> 
hide-fully-to-l">..</li> 
hide-fully-to-l">..</li> 
hide-fully-to- </li> 
hide-fully-to-1">..</li> 
dots hide-fully-to-l">..</li> 
page-last hide-fully-to-L">..</li> 










/flats—houses/london/page2" class="btn-secondary" 
</li> 
> <li class="frm-more" aria-hidden="true" data-pagiantion="pagination-main-srp-1">..</li> 


seofter 


图 3.9 ”查找 下 一 个 索引 页 


对 于 第 二 个 表达 式 ， 右 键 单 击 页 面 中 的 列表 标题 
Element ， 如 图 3.10 所 示 。 


Login 


Property 


bedroom fla single roon 









内 ， 如 图 3.9 所 示 。 因 此 ， 我 们 只 需 使 用 一 个 实用 的 XPath 表达 


行 了 。 


5 6 = 4,109 
>)... Link in New Tab 


Open Link in New Win 

Open Link in Incognit: 

Save Link As... 

Copy Link Address 

Copy 

~ Search Google com fo 
Print... 


Inspect Element 








Look Up in Dictionary 
Speech 








Search With Google 
Look Up in VitalSource 
Add to iTunes as a Sp 
Add to Evernote 


KUREL 的 XPath 表达 式 


， 并 选择 Inspect 


Help MyGumtree v 


+0 miles 





93,495 ads in Property, London 


Q refine } UE Open Link in New Tab 





} y 
Keyword f | | » Open Link in New Window 
i e Open Link in Incognito Window 
LE Save Link As... 
| Searchtitle& description Copy Link Address 
k Sources Timeline Profiles Resources Audits Console Copy 





“y¥<article class="listing-maxi 





itemscope itemtype="http://schema.org/P 










Print... 












isting-link" hre p/studios—bedsits—rent/an. tte cqedie 


Inspect Element 





> <div class="Listing-side">..</div> 
v <div class=" listing-content"> 
<h2 class="Listing-title" itemprop="name"> 


Look Up in Dictionary 
Speech 









Search With Google 
Look Up in VitalSource Bookshelf 


diy. cisa listing location" & i i z Add to iTunes as a Spoken Track 
><div class="Listing-location" itemscope itemtype="http://schema. 
<strong class="listing-price txt-emphasis" itemprop="price">£330 Add to Evernote 


> <p class=" listing-description truncate-paragraph 
hide-fully-to-m" itemprop="description">..</p> 
> <ul class="listing-attributes inline-list hide-fully-to-m">..</ul 





Search Google com for '5 images An amazing duplex studio near..." 


Most recent first $ 





yles Computed Ever 
hent.style { 


kitlineclamp 6f3e 
sting-maxi .listing- 
eight: » auto; 

> ‘ext-overflow: ellip 
lisplay: -webkit-box 
webkit-Line-clamp: 
‘webkit-box-orient: 





»<strong class="listing-posted-date txt-normal truncate-line” itemprop="adAge">..</strong> 
</div> 


lia (min- 6f3e 

th: 48em) 

St ing-maxi 6f3e 
-listing-title, .listir 
t 


图 3.10 “查找 列表 页 UREL 的 XPath 表达 式 





请 注意 ，URL 中 包含 我 们 感 兴 趣 的 jtemprop="url" 属性 。 因 此 ， 
表达 式 //*[@itemprop="url"]/@href 就 可 以 正常 运行 。 现 在 ， 打 开 
一 个 scrapy shell 来 确认 这 两 个 表达 式 是 否 有 效 : 











$ scrapy shell http://web:9312/properties/index_90000.html 


>>> urls = response.xpath('//*[contains(@class, "next")]//@href').extract() 


>>> urls 


[u'index_0@001.html1' ] 


>>> import urlparse 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http: //web :9312/scrapybook/properties/index_00001.htm1' ] 


>>> urls = response.xpath('//*[@itemprop="url"]/@href' ).extract() 


>>> urls 


[u'property_000000.html', ... u'property_000029.htm1' ] 


>>> len(urls) 


30 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http://..._©00000.html', ... /property_000029.html'] 





非常 好 ! 可 以 看 到 ， 通 过 使 用 之 前 已 经 学 习 的 内 容 及 这 两 个 XPath 
表达 式 ， 我 们 已 经 能 够 按照 目 身 需求 使 用 水 平 抓 取 和 垂直 抓 取 的 方式 抽 
FXURL J . 


3.4.1 (EH EE SEH XX fr] MER 
BAVA HW ME HR FS LB — CEP, HA Amanual. py 。 








$ 1s 


properties scrapy.cfg 


$ cp properties/spiders/basic.py properties/spiders/manual.py 





7Eproperties/spiders/manual.py 文件 中 ， 通 过 添加 from 
scrapy.http import Request 语句 引入 Request 模块 ， 将 爬虫 的 
name 参数 改 为 "manual' ， 修 改 start_urls 以 使 用 第 一 个 索引 页 ， 并 
将 parse() 方法 重 命名 为 parse_item() 。 好 了 ! 现在 开始 编写 一 个 新 
的 parse() 方法 ， 来 实现 水 平和 垂直 两 种 抓 取 方式 。 


def parse(self, response): 
# Get the next index URLs and yield Requests 


next_selector = response.xpath('//*[contains(@class, ' 
""next") ]//@href' ) 
for url in next_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url)) 


# Get item URLs and yield Requests 
item_selector = response.xpath('//*[@itemprop="url"]/@href' ) 
for url in item_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url), 
callback=self.parse_item) 





你 可 能 已 经 注意 到 了 前 面 例子 中 的 yield if). yield 与 return 在 某 
种 意义 上 来 说 有 些 相似 ， 都 是 将 返回 值 提 供给 调用 者 。 不 过 ， 和 return 不 
同 的 是 ，yield 不 会 退出 函数 ， 而 是 继续 执行 for 循环 。 从 功能 上 来 说 ， 前 
面 的 例子 与 下 面 的 代码 大 体 相当 : 








a 








next_requests = [] 
for url in... 
next_requests.append(Request(...)) 


for url in... 


next_requests.append(Request(...)) 


return next_requests 

















yield 是 Python“ 魔 法 ”的 一 部 分 ， 它 可 以 使 日 常 的 高 效 编程 工作 更 加 轻 








> 
D 
o 





我 们 现在 已 经 准备 好 运行 该 息 虫 了 。 不 过 如 果 让 该 息 虫 以 当前 的 方 
式 运 行 的 话 ， 则 会 抓 取 网 站 完整 的 5 万 个 页 面 。 为 了 避免 运行 时 间 过 


长 ， 可 以 通过 命令 行 参数 : -s CLOSESPIDER_ITEMCOUNT=96 , #7 AIC 
虫 在 怜 取 指定 数量 〈 如 90 个 ) 的 Item 后 停止 运行 《更 多 细节 参见 第 7 
mm) 。 现 在 ， 我 们 可 以 运行 了 。 











$ scrapy crawl manual -s CLOSESPIDER_ITEMCOUNT=96 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <...index_00000.html> (referer: None) 


DEBUG: Crawled (200) <...property_@00029.html> (referer: ...index_00000. 


htm1) 


DEBUG: Scraped from <200 ...property_000029.html> 


{'address': [u'Clapham, London'], 


‘date': [datetime.datetime(2015, 10, 4, 21, 25, 22, 801098)], 


‘description’: [u'situated camden facilities corner'], 


"image_urls': [u'http://web:9312/images/i10.jpg'], 


"price': [223.88], 


"project': ['properties'], 


"server': ['scrapyserver1'], 


"spider': ['manual'], 


"title': [u'Portered Mile'], 


‘url': ['http://.../property_9@0029.htm1" ]} 


DEBUG: Crawled (200) <...property_@00028.html> (referer: ...index_00000. 


htm1) 


DEBUG: Crawled (200) <...index_00001.html> (referer: ...) 


DEBUG: Crawled (200) <...property_@00059.html> (referer: ...) 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 94, ... 


"item_scraped_count': 90, 





如 果 和 仔细 查看 前 面 的 输出 ， 就 会 发 现 我 们 同时 获得 了 水 平 抓 取 和 垂 
直 抓 取 的 结果 。 第 一 个 index_66666.html 读 取 后 ， 派 生出 了 许多 请 


求 。 当 它们 执行 时 ， 调 试 信息 通过 referer URL 指 出 是 谁 发 起 的 请 求 。 
比如 ， 可 以 看 到 ，property_ 68666629 .html 、 
property_000028.html..... Kindex_@0001.html 都 有 相同 的 
referer (index _@900@.htm1) 。 而 property 668659.html 及 其 他 
请 求 则 是 以 index_688661.html 为 referer 的 ， 并 且 该 过 程 还 在 持续 。 


从 该 示例 中 还 可 以 观察 到 ，Scrapy 在 处 理 请 求 时 使 用 的 是 后 入 先 出 
(LIFO) 策略 《“ 即 深度 优先 怜 取 ) 。 用 户 提交 的 最 后 一 个 请 求 会 被 首 
先 处 理 。 在 大 多 数 情况 下 ， 这 种 默认 的 方式 非常 方便 。 比 如 ， 我 们 想 要 
在 移动 到 下 一 个 索引 页 之 前 处 理 每 一 个 房 源 页 时 。 人 否则 ， 我 们 将 会 填充 
一 个 包含 等 仆 取 房 源 页 URL 的 巨大 队列 ， 无 谓 地 消耗 内 存 。 为 外 ， 在 许 
多 情况 中 ， 你 可 能 需要 辅助 的 请 求 来 完成 单个 请 求 ， 我 们 将 会 在 后 面 的 
章节 中 遇 到 这 种 情况 。 你 需要 这 些 辅助 的 请 求 能 够 尽快 完成 ， 以 腾 出 资 
源 ， 并 且 让 被 抓 取 的 Item 能 够 稳定 流动 。 





我 们 可 以 通过 设置 Request() 的 优先 级 参数 修改 默认 顺序 ， 大 于 0 
表示 高 于 默认 的 优先 级 ， 小 于 0 表示 低 于 默认 的 优先 级 。 通 第 来 说 ， 
Scrapy 的 调度 器 会 首先 执行 高 优先 级 的 请 求 ， 不 过 不 要 花费 太 多 时 间 来 
考虑 具体 的 哪个 请 求 应 该 被 首先 执行 。 很 可 能 在 你 的 应 用 中 ， 不 会 使 用 
超过 1 个 或 2 个 请 求 优先 级 。 此 外 还 需要 注意 的 是 ，URL 还 会 被 执行 去 重 
操作 ， 这 在 大 部 分 时 候 也 是 我 们 想 要 的 功能 。 不 过 如 果 我 们 需要 多 次 执 
行 同一 个 URL 的 请 求 ， 可 以 设置 dont_filter Request() 参数 为 true 





3.4.2 (# FA CrawlSpider3£ 2) XY [rj MEHL 


如 果 感 觉 上 面 的 双向 仆 取 有 些 元 长 ， 则 说 明 你 确实 发 现 了 关键 问 
题 。Scrapy 尝 试 简化 所 有 此 类 通用 情况 ， 以 使 其 编码 更 加 简单。 最 简单 
的 实现 同样 结果 的 方式 是 使 用 CrawlSpider ， 这 是 一 个 能 够 更 容易 地 
实现 这 种 爬 取 的 类 。 为 了 实现 它 ， 我 们 需要 使 用 genspider 命令 ， 并 设 
置 -t crawl 参数 ， 以 使 用 crawl IER BET. 





$ scrapy genspider -t crawl easy web 


Created spider ‘crawl’ using template ‘crawl’ in module: 


properties.spiders.easy 





现在 ， 文 件 properties/spiders/easy.py 包含 如 下 内 容 。 


class EasySpider(CrawlSpider): 
name = ‘easy' 
allowed_domains = ['web' ] 
start_urls = ['http://www.web/' ] 


rules = ( 
Rule(LinkExtractor(allow=r'Items/'), 
callback='parse_item', follow=True), 


) 


def parse _item(self, response): 





VR be EIR BL A AE BASIS, 2 ACE AZ HT IG a 4H 
ih, AI TEIEAIN As, ze AH He ARK A CrawlSpider ， 而 


不 再 是 Spider . CrawlSpider 提供 了 一 个 使 用 rules 变量 实现 的 
parse() 方法 ， 这 与 我 们 之 前 例子 中 手工 实现 的 功能 一 致 。 





3 
你 可 能 会 感到 疑惑 ， 为 什么 我 首先 给 出 了 手工 实现 的 版 本 ， 而 不 是 直接 
ME e te 学 会 了 使 用 回调 的 yield 方式 


的 请 求 ， 这 是 一 个 非常 有 用 和 基础 的 技术 ， 我 们 将 会 在 后 续 的 章节 中 不 断 使 
用 它 ， 因 此 理解 该 内 容 非 常 值得 。 





















































现在 ， 我 们 要 把 start_urls 设置 成 第 一 个 索引 页 ， 并 且 用 我 们 之 
前 的 实现 蔡 换 预定 义 的 parse_item() 方法 。 这 次 我 们 将 不 再 需要 实现 
任何 parse() 方法 。 我 们 将 预定 义 的 rules 变量 人 蔡 换 为 两 条 规则 ， 即 水 
平 抓 取 和 垂直 抓 取 。 





rules = ( 


Rule(LinkExtractor(restrict_xpaths='//*[contains(@class,"next")]')), 
Rule(LinkExtractor(restrict_xpaths='//*[@itemprop="url"]'), 


) 


callback='parse_item' ) 





这 两 条 规则 使 用 的 是 和 我 们 之 前 手工 实现 的 示例 中 相同 的 XPath 表 
达 式 ， 不 过 这 里 没有 了 a 或 href 的 限制 。 顾 名 思 义 ，LinkExtractor 
正 是 专门 用 于 抽取 链接 的 ， 因 此 在 默认 情况 下 ， 它 们 会 去 查找 a (及 
area ) href 属性 。 你 可 以 通过 设置 LinkExtractor() 的 tags 和 
attrs 参数 来 进行 自 定 义 。 需 要 注意 的 是 ， 回 调 参 数目 前 是 包含 回调 方 
法 名 称 的 字符 串 (比如 'parse_item' ) ， 而 不 是 方法 引用 ， 如 


Request(self.parse_item) 。 最 后 ， 除 非 设 置 了 callback 8%, T 
则 Rule 将 跟踪 已 经 抽取 的 URL， 也 就 是 说 它 将 会 扫 摘 目标 页 面 以 获取 
额外 的 链接 并 跟踪 它们 。 如 果 设 置 了 callback ，Rule 将 不 会 跟踪 目标 
页 面 的 链接 。 如 果 你 希望 它 跟 踩 链接 ， 应 当 在 callback 方法 中 使 

用 return 或 yield 返回 它们 ， 或 者 将 Rule() 的 follow 参数 设置 

为 true 。 当 你 的 房 源 页 既 包 含 Ttem 又 包含 其 他 有 用 的 导航 链接 时 ， 该 
功能 可 能 会 非常 有 用 。 








运行 该 肘 虫 ， 可 以 得 到 和 手工 实现 的 爬虫 相同 的 结 采 ， 不 过 现在 使 
用 的 是 一 个 更 加 简单 的 源 代码 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=96 





3.5 ”本 章 小 结 


本 章 可 能 是 大 家 开始 学 习 Scrapy 时 最 重要 的 一 章 。 你 刚刚 学 习 了 开 
发 仆 虫 最 基本 的 方法 : UR IM。 你 学 会 了 如 何 自 定 义 适合 需求 的 Item 
， 使 用 ItemLoader 、XPath 表 达 式 和 处 理 器 加 载 Item ， 以 及 如 何 对 
Request 使 用 yield 操作 。 我 们 使 用 Request 横 问 到 达 不 同 的 索引 页 ， 
纵向 到 达 房 源 页 并 抽取 Item 。 最 后 ， 我 们 看 到 了 如 何 使 
用 CrawlSpider 和 Rule ， 以 很 少 的 代码 行 创建 非常 强大 的 念 虫 。 如 果 
你 想 要 更 深入 地 理解 这 些 概念 ， 请 尽 可 能 多 地 阅读 本 章 ， 当 然 ， 也 可 以 
在 你 开发 自己 的 爬虫 时 使 用 本 章 作为 参考 。 





我 们 刚刚 从 网 站 中 得 到 了 一 些 信息 。 为 什么 它 这 么 重要 呢 ? 我 想 答 
案 会 在 下 一 章 中 变 得 明明 起 来 ， 在 下 一 章 中 ， 通 过 简单 的 几 页 内 容 ， 我 
们 将 会 开发 一 个 简单 的 手机 应 用 ， 并 使 用 Scrapy 填 充 其 中 的 数据 。 我 
想 ， 结 果 会 令 大 家 印象 深刻 。 


第 4 章 ” 从 Scrapy 到 移动 应 用 


我 能 够 听 到 人 们 的 尖 叫 声 ;“Appery.io 是 什么 ， 一 个 手机 应 用 的 专 
用 平台 ， 它 和 Scrapy 有 什么 关系 ? ”那么 ， 眼 见 为 实 吧 。 你 可 能 还 会 对 
几 年 前 在 Excel 电 子 表格 上 给 茶 个 人 《朋友 、 管 理 者 或 者 客户 ) 展示 数 
据 时 的 场景 印象 深刻 。 不 过 现 如 今 ， 除 非 你 的 听众 都 十 分 老练 ， 否 则 他 
们 的 期 望 很 可 能 会 有 所 不 同 。 在 接 下 来 的 几 页 里 ， 你 将 看 到 一 个 简单 的 
手机 应 用 ， 这 是 一 个 只 需 儿 次 单 击 束 能 够 创建 出 来 的 最 小 可 视 化 产品 ， 
其 目的 是 癌 利 益 相 关 者 传达 抽取 所 得 数据 的 力量 ， 并 回 到 生态 系统 中 ， 
以 源 网 站 网 络 流量 的 形式 展示 它 能 够 带 来 的 价值 。 














我 将 尽量 保持 简短 的 局 发 式 示例 ， 在 这 里 它们 将 展示 如 何 充 分 利用 
你 的 数据 。 只 有 当 你 有 一 个 具体 的 应 用 用 于 消费 数据 时 ， 才 可 以 安全 地 
略 过 本 音 。 本 章 将 会 癌 你 展示 如 何以 当下 最 流行 的 方式 一 一 手机 应 用 ， 
[IZA ARRAS PR BE o 





4.1 选择 手机 应 用 框 染 





借助 于 适当 的 工具 癌 手 机 应 用 提供 数据 将 是 非常 容易 的 事情 。 目 前 
有 许多 优秀 的 器 平台 手机 应 用 开发 框架 ， 如 PhoneGap、 使 用 
Appcelerator 云 服务 的 Appcelerator、jQuery Mobile 和 Sencha Touch. 


本 章 将 使 用 Appery.io， 因 为 它 可 以 让 我 们 使 用 PhoneGap 和 jQuery 
Mobile 快 速 创建 :OS、Android、Windows Phone 以 及 HTML5 手 机 应 用 。 


我 和 Scrapy 都 与 Appery.io 无 任何 利益 关联 。 我 会 残 励 你 独立 进行 调研 ， 

看 看 除了 本 章 中 提出 的 功能 外 ， 它 是 否 也 能 符合 你 的 需求 。 请 注意 这 是 
一 个 付费 服务 ， 你 可 以 有 14 天 的 试用 期 ， 不 过 在 我 看 来 ， 它 可 以 让 人 无 
需 动 脑 就 能 快速 开发 出 原型 ， 尤 其 是 对 于 那些 不 是 网 络 专家 的 人 来 说 ， 

为 此 付费 是 值得 的 。 我 选择 该 服务 的 主要 原因 是 它 既 能 提供 手机 应 用 ， 

也 能 提供 后 端 服务 ， 也 就 是 说 我 们 不 需要 再 去 配置 数据 库 、 编 写 REST 
API 或 为 服务 端 及 手机 应 用 使 用 其 他 一 些 语 言 。 你 将 看 到 ， 我 们 一 行 代 
码 都 不 用 去 编写 ! 我 们 将 会 使 用 它们 的 在 线 工具 ; 在 任何 时 候 ， 你 都 可 
以 下 载 该 应 用 ， 并 作为 PhoneGap 项 目 ， 使 用 PhoneGap 的 所 有 功能 。 














在 本 章 中 ， 你 需要 接 入 互联 网 连接 ， 以 便 使 用 Appery.io。 同 时 ， 还 
需要 注意 的 是 该 网 站 的 布局 可 能 在 未 来 会 有 所 变化 。 请 将 我 们 的 截屏 作 
为 参考 ， 而 不 要 在 友 现 该 网 站 外 观 不 同时 感到 惊讶 。 





4.2 ”创建 数据 库 和 集合 


第 一 步 是 通过 单 击 Appery.io 网 站 上 的 Sign-Up 按钮 并 选取 免费 方 
案 ， 来 注册 免费 的 Appery.io 方 案 。 你 需要 提供 用 户 名 、 邮 箱 地 址 以 及 密 
码 ， 然 后 就 会 创建 好 新 账户 了 。 等 待 几 秒 钟 后 ， 账 户 完 成 激活 。 然 后 就 
可 以 登录 到 Appery.io 的 仪表 各 了 。 现 在， 开始 准备 创建 新 的 数据 库 以 及 
集合 ， 如 图 4.1 所 示 。 
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图 4.1 使 用 Appery.io 创 建新 数据 库 及 集合 
为 了 完成 该 操作 ， 需 要 按照 如 下 步骤 执行 。 
1. 单 击 Databases 选项 卡 (1) 。 


2. 然后 单 击 绿色 的 Create new database (2) 按钮 。 将 新 数据 库 命 
名 为 scrapy (3) 。 


3. 现在 ， 单 击 Create 按钮 (4) 。 此 时 会 自动 打开 Scrapy 数 据 库 的 
仪表 盘 ， 在 这 里 ， 你 可 以 创建 新 的 集合 。 


在 Appery.io 的 术语 中 ， 一 个 数据 库 是 由 一 组 集合 组 成 的 。 大 致 来 
说 ， 一 个 应 用 使 用 一 个 单独 的 数据 库 〈 至 少 在 最 初时 是 这 样 ) ， 每 个 数 
据 库 中 包含 多 个 集合 ， 比 如 用 户 、 房 产 、 消 息 等 。Appery.io 默 认 已 经 提 
供 了 一 个 Users 集合 ， 其 中 包括 用 户 名 和 密码 (它们 有 很 多 内 置 功 





能 ) 。 图 4.2 所 示 为 创建 集合 的 过 程 。 


‘Predefined collections Query 
Ee) 1 
i Users 
' El Files 
' Security and permissions 
2 
O Devices 
+Col -Col Edit Col -Row Dele 
Collections 4 
o id username password $, 








+Col -Col EditCol +Row -Row Delete All Full Screen Refresh ， 





image urls 
string 


an pall _createdAt _updatedAt 
string tring 


string 


This collection doesn't have any data. 
Click +Col to create a new column, and then +Row to add a sample data (row) 


图 4.2 ”使 用 Appery.io 创 建新 数据 库 及 集合 


现在 ， 我 们 添加 一 个 用 户 ， 用 户 名 为 root， 密 码 为 pass。 当 然 ， 你 
也 可 以 选择 更 加 安全 的 用 户 名 和 密码 。 为 实现 该 目的 ， 请 单 击 侧 边 栏 的 
Users $A (1) ， 然 后 单 击 +Row 添加 用 户 / 行 (2〉。 在 出 现 的 两 个 字 
段 中 填 入 用 户 名 和 密码 (3) 和 (4) 。 


我 们 还 需要 创建 一 个 新 的 集合 ， 用 于 存储 Scrapy 抓 取 到 的 房产 数 
据 ， 并 将 该 集合 命名 为 properties。 通 过 单 击 绿色 的 Create new collection 
按钮 (5) ， 将 其 命名 为 properties (6) ， 然 后 单 击 Add 按钮 


(7) ， 就 可 以 创建 新 的 集合 了 。 现 在 ， 我 们 还 必须 对 该 集合 进行 一 些 
定制 化 处 理 。 单 击 +Col 添加 数据 库 列 〈8) 。 每 个 数据 库 列 都 有 其 类 
型 ， 用 于 对 值 进行 校 验 。 除 了 价格 是 数值 类 型 外 ， 大 部 分 字段 都 是 简单 
的 字符 串 类 型 。 我 们 将 通过 单 击 +Col 添加 几 个 列 〈8) ， 并 填充 列 名 
(9) ， 如 果 不 是 字符 串 类 型 的 话 ， 还 需要 选择 类 型 (10) ， 然 后 单 击 
Create column 按钮 (11) 。 重 复 该 过 程 5 次 ， 创 建 表 4.1 中 展示 的 列 。 


表 4.1 


C fe fe em aa | 


列 





在 集合 创建 的 最 后 ， 你 应 该 已 经 将 所 需 的 所 有 列 都 创建 完成 了 ， 惑 
像 表 4.1 中 所 示 的 那样 。 现 在 已 经 准备 好 从 Scrapy 中 导入 一 些 数据 了 。 


4.3 ”使 用 Scrapy 填 充 数 据 库 


首先 ， 我 们 需要 一 个 API key。 我 们 可 以 在 Settings 选项 卡 (1) 中 
找到 它 。 复 制 该 值 (2) ， 然 后 单 击 Collections 选项 卡 (3) 回 到 房产 集 
合 中 ， 过 程 如 图 4.3 所 示 。 
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API key is always used when making requests to REST API. It is added as X-Appery-Database-Id header. 
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图 4.3 ”使 用 Appery.io 创 建新 数据 库 及 集合 














非常 好 ! 现在 需要 修改 在 第 3 章 中 创建 的 应 用 ， 将 数据 导入 到 
Appery.io 中 。 我 们 先 将 项 目 以 及 名 为 easy 的 爬虫 Ceasy.py ) 复制 过 
来 ， 并 将 该 爬虫 重 命名 为 tomobile (tomobile.py ) 。 同 时 ， 编 辑 文 
件 ， 将 其 名 称 设 为 tomobile 。 





$ 1s 


properties scrapy.cfg 


$ cat properties/spiders/tomobile. py 


class ToMobileSpider (CrawlSpider ): 


name = 'tomobile' 


allowed_domains = ["scrapybook.s3.amazonaws.com" ] 


# Start on the first index page 


start_urls = ( 


"http: //scrapybook.s3.amazonaws.com/properties/ ' 


'index_00000.html', 





本 章 代 码 可 以 在 GitHub 的 che4 目录 下 找到 。 











你 可 能 已 经 注意 到 的 一 个 问题 是 ， 这 里 并 没有 使 用 之 前 章节 中 用 过 
的 web 服务器 (http://web:9312 ) ， 而 是 使 用 了 该 站 点 的 一 个 公开 
可 用 的 副本 ， 这 是 我 存放 在 http://scrapybook.s3.amazonaws .com 
上 的 副本 。 之 所 以 在 本 章 中 使 用 这 种 方式 ， 是 因为 这 样 可 以 使 图 片 和 
URL 都 能 够 公开 可 用 ， 此 时 就 可 以 非常 轻松 地 分 享 应 用 了 。 








H a 


我 们 将 使 用 Appery.io 的 管道 来 插入 数据 。Scrapy 管 道 通 常 是 一 个 很 
小 的 Python 类 ， 拥 有 后 置 处 理 、 清 理 及 存储 Scrapy Item 的 功能 。 第 8 章 将 


会 更 深入 地 介绍 这 部 分 的 内 容 。 束 目前 来 说 ， 你 可 以 使 
用 easy_install 或 pip 安装 它 ， 不 过 如 果 你 使 用 的 是 我 们 的 Vagrant 
dev 机 器 ， 则 无 需 进行 任何 操作 ， 因 为 我 们 已 经 将 其 安装 好 了 。 





$ sudo easy_install -U scrapyapperyio 


$ sudo pip install --upgrade scrapyapperyio 





此 时 ， 你 需要 对 Scrapy 的 主 设置 文件 进行 一 些小 修改 ， 将 之 前 复制 
的 API key 添 加 进来 。 第 7 章 将 会 更 加 深入 地 讨论 设置 。 现 在 ， 我 们 所 需 
要 做 的 就 是 将 如 下 行 添加 到 properties/settings .py 文件 中 。 


ITEM_PIPELINES = {'scrapyapperyio.ApperyIoPipeline': 300} 


APPERYIO_ DB_ID = '<<Your API KEY here>>' 
APPERYIO_USERNAME "root ' 


APPERYIO_PASSWORD = 'pass' 
APPERYIO_COLLECTION_NAME = ‘properties’ 





不 要 不 记 将 APPERYIO_DB_ID 蔡 换 为 你 的 API key。 此 外 ， 还 需要 
确保 设置 中 的 用 户 名 和 密码 ， 要 和 你 在 Appery.io 中 创建 数据 库 用 户 时 使 
用 的 相同 。 要 想 向 Appery.io 的 数据 库 中 填充 数据 ， 请 像 平常 那样 启动 


scrapy crawl. 





$ scrapy crawl tomobile -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Enabled item pipelines: ApperyIoPipeline 


INFO: Spider opened 


DEBUG: Crawled (200) <GET https://api.appery.io/rest/1/db/login?username= 


root&password=pass> 


DEBUG: Crawled (20@) <POST https://api.appery.io/rest/1/db/collections/ 


properties> 


INFO: Dumping Scrapy stats: 


{'downloader/response_count': 215, 


"item_scraped_count': 105, 


INFO: Spider closed (closespider_itemcount) 





这 次 的 输出 会 有 些 不 同 。 可 以 看 到 在 最 开始 的 几 行 中 ， 有 一 行 是 用 








于 启用 ApperyIoPipeline 这 个 Item 管 道 的 ;不 过 最 明显 的 是 ， 你 会 发 
现 尽 管 抓 取 了 100 个 Item， 但 是 却 有 200 次 请 求 / 啊 应 。 这 是 因为 Appery.io 
的 管道 对 每 个 Item 都 执行 了 一 个 到 Appery.io 服 务 端 的 额外 请 求 ， 以 便 与 

入 每 一 个 Item。 这 些 带 有 api.appery.io 这 个 URL 的 请 求 同 样 也 会 在 

日 志 中 出 现 。 


当 回 到 Appery.io 时 ， 可 以 看 到 在 properties 集合 (1) 中 已 经 填充 好 
了 数据 (2) ， 如 图 4.4 所 示 。 
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图 4.4 使 用 数据 填充 properties 集 合 


4.4 创建 手机 应 用 





创建 一 个 新 的 手机 应 用 非常 简单 。 我 们 只 需 单 击 Apps 选项 卡 
(1) ， 然 后 单 击 绿色 的 Create new app 按钮 (2) 。 填 写 应 用 名 称 
为 properties (3) ， 然 后 单 击 Create 按钮 进行 创建 就 可 以 了 ， 该 过 程 
如 图 4.5 所 示 。 
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图 4.5 ”创建 新 手机 应 用 及 数据 库 集合 
4.4.1 ”创建 数据 库 访问 服务 


创建 新 应 用 时 的 选项 数量 可 能 会 有 些 多 。 使 用 Appery.io 的 应 用 编辑 
器 ， 可 以 写 出 复杂 的 应 用 ， 不 过 我 们 将 尽 可 能 保持 事情 简单 。 我 们 最 初 
需要 的 就 是 创建 一 个 服务 ， 能 够 让 我 们 从 应 用 中 访问 Scrapy 数 据 库 。 为 
了 达到 这 一 目的 ， 需 要 单 击 长 方形 的 绿色 按钮 CREATE NEW (5) ， 
然后 选择 Database Services (6) 。 这 时 会 弹出 一 个 新 的 对 话 框 ， 让 我 
们 选择 想 要 连接 的 数据 库 。 选 择 scrapy 数据 库 (7) 。 这 个 菜单 中 的 大 











部 分 选项 都 不 会 用 到 ， 现 在 只 需要 单 击 展开 properties 区 域 (8) ， 然 后 
选择 List (9) 。 在 后 台 ， 它 会 为 我 们 编写 代码 ， 使 得 我 们 使 用 Scrapy 卡 
取 的 数据 可 以 在 网 络 上 使 用 。 最 后 ， 单 击 Import selected services 按钮 
完成 (10) 。 


4.4.2 ”创建 用 户 界 面 





下 面 将 要 开始 创建 应 用 所 有 的 可 视 化 元 素 了 ， 这 将 会 使 用 编辑 器 中 
的 DESIGN 选项 卡 来 实现 ， 如 图 4.6 所 示 。 
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图 4.6 创建 用 户 界 面 














从 页 面 左 侧 的 树 中 ， 展 开 Pages 文件 夹 (1) ， 然 后 单 击 startScreen 


) 。UI 编 辑 器 将 会 打开 该 页 面 ， 我 们 可 以 在 其 中 添加 一 些 控 件 。 | 
面 使 用 编辑 器 编辑 标题 ， 以 便 对 其 更 加 熟悉 。 单 击 头 部 标题 (3) ， 
后 会 发 现 屏幕 右 侧 的 属性 区 域 会 变 为 显示 标题 的 属性 ， 其 中 包含 一 
个 Text 属性 ， 将 该 属性 值 修改 为 Scrapy App ， 屏 幕 中 间 的 标题 也 会 相 
应 地 更 新 。 


IR 








然后 ， 需 要 添加 一 个 网 格 组 件 ， 从 左 侧面 板 〈5) 中 拖 电 Grid 控件 
即 可 实现 。 该 控件 有 两 行 ， 而 根据 我 们 的 需求 ， 只 需要 一 行 即 可 。 选 择 
刚刚 添加 的 网 格 。 当 手机 视图 顶部 的 缩 略 图 区 域 C6) 变 灰 时 ， 就 可 以 
WO 单 击 该 网 格 以 便 选 中 。 然 
后 右 侧 的 属性 栏 会 更 新 为 网 格 的 属性 。 这 里 只 需要 将 Rows 属 性 设置 为 
1， 然 后 单 击 Apply 即 可 (7) 和 (8) 。 该 网 格 就 会 被 更 新 为 只 有 
= 














最 后 ， 拖 搜 男 外 一 些 控 件 到 网 格 中 。 首 先 要 在 网 格 左 侧 添 加 图 片 控 
件 (9) ， 然 后 在 网 格 右 侧 添加 链接 10， ， 最 后 在 链接 下 面 添加 标签 
(11). 








就 布局 而 言 ， 此 时 已 经 足够 。 接 下 来 将 从 数据 库 中 向 用 户 界 面 输入 
数据 。 


4.4.3 ”将 数据 映射 到 用 户 界 面 


目前 为 止 ， 我 们 花费 了 大 量 时 间 在 DESIGN 选项 卡 中 ， 以 创建 应 用 
的 可 视 化 效果 。 为 了 将 可 用 的 数据 链接 到 这 些 控件 中 ， 需 要 切换 
到 DATA WE (1) ， 如 图 4.7 所 示 。 
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图 4.7 ”将 数据 映射 到 用 户 界 面 


选择 Service (2) 作为 数据 源 类 型 。 由 于 前 面 创建 的 服务 是 唯一 可 
用 的 服务 ， 因 此 它 会 被 自动 选取 。 然 后 可 以 继续 单 击 Add 按钮 (3) ， 
此 时 服务 属性 将 会 在 其 下 方 列 出 。 只 要 按 下 了 Add 按钮 ， 就 会 看 到 像 
Before send 以 及 Success 这 样 的 事件 。 我 们 可 以 通过 单 击 Success 后 面 
的 Mapping 按钮 ， 定 制服 务 成 功 调用 后 要 做 的 事情 。 


此 时 会 打开 Mapping action editor ， 我 们 可 以 在 这 里 完成 连 线 。 该 
编辑 器 有 两 侧 。 左 侧 是 服务 啊 应 中 可 用 的 字段 ， 而 在 右 侧 中 可 以 看 到 前 
面 步 又 中 添加 的 UI 控件 的 属性 。 两 侧 都 有 一 个 Expand all 链接 ， 单 击 该 
链接 可 以 看 到 所 有 可 用 的 数据 和 控件 。 接 下 来 ， 需 要 按照 表 4.2 中 给 出 
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表 4.2 中 项 的 数量 可 能 会 与 你 的 情况 有 些许 差别 ， 不 过 由 于 每 种 控 
件 都 只 有 一 个 ， 因 此 出 错 的 可 能 性 非常 小 。 通 过 设置 这 些 映射 ， 我 们 通 
知 Appery.io 在 后 台 编 写 所 有 代码 ， 以 便 在 数据 库 查 询 成 功 时 使 用 数据 库 
中 的 值 加 载 控 件 。 下 面 ， 可 以 单 击 Save and return 按钮 (6) 继续 。 














此 时 又 回 到 了 DATA 选项 卡 ， 如 图 4.7 所 示 。 由 于 还 需要 返回 到 UI 
编辑 器 当中 ， 因 此 需要 单 击 DESIGN 选项 卡 (7) 。 在 屏幕 下 方 ， 你 会 
发 现 一 个 EVENTS 区 域 (8) ， 尽 管 该 区 域 一 直 存 在 ， 但 它 刚 刚才 被 展 





开 。 在 EVENTS 区 域 中 ， 我 们 让 Appery.io 做 一 些 事 情 ， 作 为 对 UI 事件 
的 响应。 这 是 我 们 需要 执行 的 最 后 一 个 步 又 。 它 会 让 应 用 在 UI 加 载 完 成 
后 立即 调用 服务 取 回 数据 。 为 了 实现 该 功能 ， 我 们 需要 选择 startScreen 
作为 组 件 ， 并 将 事件 保持 为 默认 的 Load 选项 。 然 后 选择 Invoke service 
作为 action ， 保 持 Datasource 为 默认 的 restservicel 选项 (9) 。 最 后 ， 
单 击 Save (10) ， 这 就 是 我 们 为 创建 这 个 手机 应 用 所 做 的 所 有 事情 

Te 


4.4.5 测试 、 分 享 及 导出 你 的 手机 应 用 


现在 ， 可 以 测试 这 个 应 用 了 。 我 们 所 需要 做 的 事情 就 是 单 击 UI 生 成 
器 顶部 的 TEST 按钮 (1) ， 如 图 4.8 所 示 。 
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图 4.8 itr err bids PAF LA 


手机 应 用 将 会 在 浏览 器 中 运行 。 这 些 链接 都 是 有 效 的 (2) ， 可 以 
浏览 。 可 以 预览 不 同 的 手机 屏幕 方案 以 及 设备 方向 ， 也 可 以 单 击 View 
on Phone 按钮 ， 此 时 会 显示 一 个 二 维 码 ， 你 可 以 使 用 移动 设备 扫描 该 

二 维 码 ， 并 预览 该 应 用 。 你 只 需 分 享 其 生成 的 链接 ， 其 他 人 也 可 以 在 他 
们 的 浏览 器 中 尝试 该 应 用 。 


只 需 单 击 几 下 ， 我 们 就 可 以 将 Scrapy 抓 取 的 数据 组 织 起 来 ， 并 展示 
在 手机 应 用 中 。 如 果 你 需要 更 进一步 地 定制 该 应 用 ， 可 以 参考 Appery.io 
提供 的 教程 ， 其 网 址 为 http://devcenter.appery.io/tutorials/ 


。 当 一 切 准 备 就 绪 时 ， 就 可 以 通过 EXPORT 按钮 导出 该 应 用 了 ， 
Appery.io 提 供 了 非常 丰富 的 导出 选项 ， 如 图 4.9 所 示 。 





a 
| R $ HTMUJS/CSS Š Eclipse project & Binary (.apk) | 
LA 
g & HTML/JS/CSS & xCode project & Binary (.ipa) 
SE 上 HTMUSs/css 4. VS Project 二 Binary (.xap) 
日 $ HTMUJS/CSS 


appery 起 Appery.io plug-in 


图 4.9 ”你 可 以 将 应 用 导出 到 大 部 分 主流 移动 平台 


你 可 以 导出 项 目 文件 ， 在 自己 喜欢 的 IDE 中 进一步 开 有 ; 也 可 以 获 
得 二 进 制 文件 ， 发 布 到 各 个 平 合 的 手机 市 场 当中 。 


45 ”本章 小 结 


使 用 Scrapy 和 Appery.io 这 两 个 工具 ， 我 们 拥有 了 一 个 可 以 抓 取 网 站 
并 且 能 够 将 数据 插入 到 数据 库 中 的 系统 。 此 外 ， 我 们 还 得 到 了 RESTful 
API， 以 及 一 个 简单 的 可 以 用 于 Android 和 iOS 的 手机 应 用 。 对 于 高 级 特 
性 和 进一步 开发 ， 你 可 以 更 加 深入 到 这 些 平台 中 ， 将 其 中 部 分 开发 工作 
外 包 给 领域 专家 ， 或 是 研究 蔡 代 方案 。 现 在 ， 你 只 需要 最 少 的 编码 ， 职 
能 够 拥有 一 个 可 以 演示 应 用 理念 的 最 小 产品 。 











你 会 注意 到 ， 在 如 此 短 的 开发 时 间 中 ， 我 们 的 应 用 看 起 来 还 不 错 。 


这 是 因为 它 使 用 了 真实 的 数据 ， 而 不 是 占 位 符 ， 并 且 所 有 链接 都 是 可 用 
且 有 意义 的 。 我 们 成 功 创建 了 一 个 草 重 其 生态 〈 源 网 站 ) 的 最 小 可 用 产 
品 ， 并 以 流量 的 形式 将 价值 回馈 给 源 网 站 。 


现在 ， 我 们 可 以 开始 学 习 如 何 使 用 Scrapy 扑 虫 在 更 加 复杂 的 场景 下 
抽取 数据 了 。 


往生 


Foe WME ey 





第 3 章 关 注 的 是 如 何 从 页 面 中 抽取 信息 ， 并 将 其 存储 到 Items 中 。 
我 们 所 学 习 的 内 容 已 经 缆 盖 了 大 部 分 常见 的 Scrapy 用 例 ， 足 够 你 创建 并 
运行 候 虫 了 。 而 在 本 章 中 ， 我 们 将 看 到 更 多 特殊 的 例子 ， 以 便 让 你 更 加 
就 悉 Scrapy 的 两 个 最 重要 的 类 一 一 Request 和 Response ， 即 我 们 在 第 3 
BP $e SI AUR? IM 抓 取 模 型 中 的 两 个 R。 





5.1 需要 登录 的 爬虫 


通常 情况 下 ， 你 会 发 现 自己 想 要 抽取 数据 的 网 站 存在 登录 机 制 。 大 

部 分 情况 下 ， 网 站 会 要 求 你 提供 用 户 名 和 密码 用 于 登录 。 你 可 以 从 
http://web:9312/dynamic (从 dev 机 器 访问 ) 
或 http://localhost:9312/ dynamic 〈 从 宿主 机 浏览 器 访问 ) 找到 
我 们 要 使 用 的 例子 。 如 果 使 用 "user" 作 为 用 户 名 ，"pass" 作 为 密码 的 话 ， 
你 就 可 以 访问 到 包含 3 个 房产 页 面 链接 的 网 页 。 不 过 现在 的 问题 是 ， 要 
如 何 使 用 Scrapy 执 行 相同 的 操作 ? 











让 我 们 使 用 Google Chrome 浏 览 器 的 开发 者 工具 来 尝试 理解 登录 的 
工作 过 程 ( 见 图 5.1) 。 首 先 ， 打 开 Network 选项 卡 (1) 。 然 后 ， 填 写 
用 户 名 和 密码 ， 并 单 击 Login 2) 。 如 果 用 户 名 和 密码 正确 ， 你 将 会 
看 到 包含 3 个 链接 的 页 面 。 如 果 用 户 名 和 密码 不 匹配 ， 将 会 看 到 一 个 错 
误 页 。 
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图 5.1 登录 网 站 时 的 请 求 和 响应 


当 按 下 Login 按钮 时 ， 会 在 Google Chrome 浏 览 器 开发 者 工具 的 
Network 选项 卡 中 看 到 一 个 包含 Request Method: POST 的 请 求 ， 其 目 
的 地 址 为 http://localhost:9312/dynamic/login 。 


Q 
前 面 章节 中 的 请 求 都 是 GET 类 型 的 请 求 ， 一 般 用 于 获取 不 会 改变 的 数 


据 ， 比 如 简单 的 网 页 、 图 像 等 。 而 POST 类 型 的 请 求 通常 用 于 获取 那些 依赖 
于 传送 给 服务 器 内 容 的 数据 ， 比 如 本 例 中 的 用 户 名 和 密码 。 























当 你 单 击 该 请 求 时 (3) ， 可 以 看 到 发 送 给 服务 端的 数据 ， 包 括 
Form Data (4) ， 其 中 包含 了 我 们 输入 的 用 户 名 和 密码 。 这 些 数据 都 





是 以 文本 形式 传输 给 服务 端的 。Chrome 浏 览 器 只 是 将 其 组 织 起 来 ， 辐 
我 们 更 好 地 显示 这 些 数据 。 服 务 端的 啊 应 是 302 Found (5) ， 使 我 们 
跳 转 到 一 个 新 的 页 面 ， /dynamic/gated 。 该 页 面具 有 在 登录 成 功 后 才 
会 出 现 。 如 有 果 答 试 直 接 访问 
http://localhost:9312/dynamic/gated ， 而 不 输入 正确 的 用 户 名 
和 密码 的 话 ， 服 务 端 会 发 现 你 在 作 粗 ， 并 跳 转 到 错误 页 ， 其 地 址 

是 http:// localhost:9312/dynamic/error 。 服 务 端 是 如 何 知 道 你 
和 你 的 密码 的 呢 ? 如 果 你 单 击 开发 者 工具 左 侧 的 gated (6) ， 就 会 发 现 
在 Request Headers 区 域 下 面 (7) 设置 了 一 个 Cookie 值 (8) 。 


Q 
HTTP Cookie 是 一 些 服 务 端 发 送 给 浏览 器 的 文本 或 数值 ， 通 常 都 很 短 。 
相应 地 ， 浏 览 器 会 在 随后 的 每 个 请 求 中 将 其 返回 给 服务 端 ， 用 于 标识 你 、 用 


户 和 会 话 。 这 样 你 就 可 以 执行 需要 服务 端 状态 信息 的 复杂 操作 了 ， 比 如 购物 
车 里 的 商品 或 你 的 用 户 名 和 密码 。 
































总 之 ， 即 使 是 一 个 单一 的 操作 ， 比 如 登录 ， 也 可 能 涉及 包括 POST 
请 求 和 HTTP 跳 转 的 多 次 服务 端 往返 。Scrapy 能 够 自动 处 理 大 部 分 操 
作 ， 而 我 们 需要 编写 的 代码 也 很 简单 。 


我 们 从 第 3 章 中 名 为 easy 的 爬虫 开始 ， 创 建 一 个 新 的 谎 虫 ， 命 名 
为 login ， 保 留 原 有 文件 ， 并 修改 爬虫 中 的 name 属性 〈 如 下 所 示 ) : 


class LoginSpider(CrawlSpider): 
name = 'login' 


本 章 代 码 在 GitHub 的 che5 目录 下 ， 其 中 本 示例 为 che5/properties。 





我 们 需要 通过 执行 到 http://localhost:9312/dynamic/login 
的 POST 请 求 ， 发 送 登 录 的 初始 请 求 。 这 将 通过 Scrapy 的 FormRequest 
类 实现 该 功能 。 该 类 与 第 3 章 中 使 用 的 Request 类 相似 ， 不 过 该 类 额外 
包含 一 个 formdata 参数 ， 可 以 使 用 该 参数 传输 表单 数据 (user 和 
pass ) 。 要 想 使 用 该 类 ， 首 先 需 要 引入 如 下 模块 。 


from scrapy.http import FormRequest 


然后 ， 将 start_urls 语句 替换 为 start_requests() 方法 。 这 样 
做 是 因为 在 本 例 中 ， 我 们 需要 从 一 些 更 加 定制 化 的 请 求 开始 ， 而 不 仅仅 
是 几 个 URL。 更 确切 地 说 就 是 ， 我 们 从 该 函数 中 创建 并 返回 一 
个 FormRequest 。 
# Start with a login request 
def start_requests(self): 


return [ 
FormRequest( 


"http: //web:9312/dynamic/login", 
formdata={"user": "user", "pass": "pass"} 


)] 





虽然 听 起 来 不 可 思议 ， 但 是 CrawlSspider (LoginSpider 的 基 
类 ) 默认 的 parse() 方法 确实 处 理 了 Response ， 并 且 仍 然 能 够 使 用 第 


3 章 中 的 Rule 和 LinkExtractor 。 我 们 只 编写 了 非常 少 的 额外 代码 ， 
这 是 因为 Scrapy 为 我 们 透明 处 理 了 Cookie， 并 且 一 旦 我 们 登录 成 功 ， 就 
会 在 后 续 的 请 求 中 传输 这 些 Cookie， 就 和 浏览 器 执行 的 方式 一 样 。 接 下 
来 可 以 像 平常 一 样 ， 使 用 scrapy crwal 运行 。 





$ scrapy crawl login 


INFO: Scrapy 1.6.3 started (bot: properties) 


DEBUG: Redirecting (362) to <GET .../gated> from <POST .../login > 


DEBUG: Crawled (200) <GET .../data.php> 


DEBUG: Crawled (200) <GET .../property_900001.html> (referer: .../data. 


php) 


DEBUG: Scraped from <200 .../property_000001.html> 


{'address': [u'Plaistow, London'], 


'date': [datetime.datetime(2015, 11, 25, 12, 7, 27, 120119)], 


‘description’: [u'features'], 


"image_urls': [u'http://web:9312/images/i02.jpg'], 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 4, 


"downloader/request_method_count/POST': 1, 


"item_scraped_count': 3, 





我 们 可 以 在 日 志 中 看 到 从 dynamic/login 到 dynamic/gated Mik 
转 ， 然 后 就 会 像 平时 那样 抓 取 Item 了 。 在 统计 中 ， 可 以 看 到 1 个 POST 请 
求 和 4 个 GET 请 求 〈 一 个 是 前 往 dynamic/gated 索引 页 ， 另 外 3 个 是 房 
产 页 面 ) 。 


Q 
本 例 中 ， 我 们 没有 保护 房产 页 面 本 身 ， 而 是 只 保护 了 到 这 些 页 面 的 链 
接 。 无 论 哪 种 情况 ， 前 面 的 代码 都 是 适用 的 。 
































如 果 使 用 了 错误 的 用 户 名 和 和 密码， 将 会 跳 转 到 一 个 没有 任何 项 目的 


页 面 ， 并 且 此 时 不 取 过 程 会 被 终止 ， 如 下 面 的 执行 情况 所 示 。 


$ scrapy crawl login 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Redirecting (302) to <GET .../dynamic/error > from 《POST .../ 


dynamic/login> 


DEBUG: Crawled (200) <GET .../dynamic/error> 


INFO: Spider closed (closespider_itemcount) 





这 是 一 个 简单 的 登录 示例 ， 用 于 演示 基本 的 登录 机 制 。 大 多 数 网 站 
都 会 拥有 一 些 更 加 复杂 的 机 制 ， 不 过 Scrapy 也 都 能 够 轻松 处 理 。 比 如 ， 
一 些 网 站 要 求 你 在 执行 POST 请 求 时 ， 将 表单 页 中 的 东 些 表单 变量 传输 
到 登录 页 ， 以 便 确 认 Cookie 是 局 用 的 ， 同 样 也 会 让 你 在 尝试 暴力 破解 成 
二 上 万 次 用 户 名 /密码 的 组 合 时 更 加 困难 。 图 5.2 所 示 即 为 此 种 情况 的 一 
个 示例 。 











Welcome x 


所 CŒ localhost:9312/dynamic/nonce 


Welcome, please login 


Login 


R O | Elements | Network Sources Timeline Profiles Resourct 


<html> 
> <head>...</head> 
v <body> 
<hl>Welcome, please login</h1> 
v <form method="post" action=""/dynamic/nonce-Llogin"> 
je < p>..</ p> 
> <p>..</p> 
> <p class="Submit''>..</p> 
input type="hidden” name=" nonce" valu 
</form> 
</body> 
</html> 





图 5.2 ”使 用 一 次 性 随机 数 的 一 个 更 加 高 级 的 登录 示例 的 请 求 和 啊 应 情况 


比如 ， 当 访问 http://localhost:9312/dynamic/nonce 时 ， 你 
会 看 到 一 个 看 起 来 一 样 的 页 面 ， 但 是 当 使 用 Chrome 浏 览 器 的 开发 者 工 
上 共 人 查看 时 ， 会 发 现 页 面 的 表单 中 有 一 个 叫 作 nonce 的 隐藏 字段 。 当 提交 
该 表单 时 (提交 到 http://localhost:9312/ dynamic/nonce-login 
) ， 除 非 你 既 传 输 了 正确 的 用 户 名 /密码 ， 又 提交 了 服务 端 在 你 访问 该 
登录 页 时 给 你 的 nonce 值 ， 否 则 登录 不 会 成 功 。 你 无 法 猜测 该 值 ， 因 为 
它 通 冲 是 随机 且 一 次 性 的 。 这 就 表示 要 想 成 功 登 录 ， 现 在 就 需要 请 求 两 
次 了 。 你 必须 先 访问 表单 页 ， 然 后 再 访问 登录 页 传输 数据 。 当 然 ， 
Scrapy 同 样 拥有 内 置 函 数 可 以 帮助 我 们 实现 这 一 目的 。 





我 们 创建 了 一 个 和 之 前 相似 的 NonceLoginspider WE. HA, 
在 start_requests() 中 ， 将 返回 一 个 简单 的 Request 《不 要 瑟 记 引入 


该 模块 ) 到 表单 页 面 中 ， 并 通过 设置 其 callback 属性 为 处 理 方法 
parse welcome() 手动 处 理 响 应 。 在 parse_welcome() 中 ， 使 用 了 
FormRequest 对 象 的 辅助 方法 from_response() ， 以 创建 从 原始 表单 
中 预 填充 所 有 字段 和 值 的 FormRequest 对 

象 。FormRequest.from_response() 粗略 模拟 了 一 次 在 页 面 的 第 一 个 
表单 上 的 提交 单 击 ， 此 时 所 有 字段 留 空 。 





花费 一 些 时 间 让 自己 熟悉 from_response() 的 文档 是 值得 的 。 它 有 很 
多 非常 有 用 的 功能 ， 如 formname 和 formnumber 可 以 帮助 你 在 拥有 多 个 表 
单 的 页 面 上 选择 其 中 茶 个 表单 。 




































































该 方法 对 于 我 们 来 说 非常 有 用 ， 因 为 它 能 够 宣 不 费力 地 原样 包含 表 
单 中 的 所 有 隐藏 字段 。 我 们 所 需要 做 的 就 是 使 用 formdata 参数 填 
充 user 和 pass 字段 以 及 返回 FormRequest 。 下 面 是 其 相关 代码 。 


# Start on the welcome page 
def start_requests(self): 
return [ 
Request ( 
"http: //web:9312/dynamic/nonce", 
callback=self.parse welcome) 


] 


# Post welcome page's first form with the given user/pass 
def parse _welcome(self, response): 
return FormRequest.from_response( 
response, 
formdata={"user": "user", "pass": "pass"} 


) 





我 们 可 以 像 平时 一 样 运行 仆 虫 。 





$ scrapy crawl noncelogin 


INFO: Scrapy 1.6.3 started (bot: properties) 


DEBUG: Crawled (266) <GET .../dynamic/nonce> 


DEBUG: Redirecting (302) to <GET .../dynamic/gated > from <POST .../ 


dynamic/login-nonce> 


DEBUG: Crawled (200) <GET .../dynamic/gated> 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 5, 


"downloader/request_method_count/POST': 1, 


"item_scraped_count': 3, 


[L CR 


可 以 看 到 ， 第 一 个 GET 请 求 前 往 /dynamic/nonce 页 面 ， 然 后 是 
POST 请 求 ， 跳 转 到 /dynamic/nonce-login 页 面 ， 之 后 像 前 面 的 例子 
一 样 跳 转 到 /dynamic/gated 页 面 。 关 于 登录 的 讨论 就 到 这 里 。 该 示例 
使 用 两 个 步骤 完成 登录 。 只 要 你 有 足够 的 耐心 ， 就 可 以 形成 任意 长 链 ， 
来 执行 几乎 所 有 的 登录 操作 。 


5.2 ”使 用 JSON APIFIAJAX A H Yee 








有 时 ， 你 会 发 现 自己 在 页 面 寻找 的 数据 无 法 从 HTML 页 面 中 找到 。 
比如 ， 当 访问 http://localhost:9312/static/ 时 ( 见 图 5.3) ， 在 
页 面 任 意 位 置 右键 单 击 inspect element (1,2) ， 可 以 看 到 其 中 包含 所 
有 常见 HTML 元 素 的 DOM 树 。 但 是 ， 当 你 使 用 scrapy shell tak, Bk 
是 在 Chrome 浏 览 器 中 右键 单 击 View Page Source (3, 4) 时 ， 则 会 发 现 
该 页 面 的 HIML 代 码 中 并 不 包含 关于 房产 的 任何 信息 。 那 么 ， 这 些 数据 
是 从 哪里 来 的 呢 ? 
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图 5.3 ”动态 加 载 JSON 对 象 时 的 页 面 请 求 与 响应 


与 平常 一 样 ， 遇 到 这 类 例子 时 ， 下 一 步 操作 应 当 是 打开 Chrome 浏 
览 器 开发 者 工具 的 Network 选项 卡 ， 来 看 看 发 生 了 什么 。 在 左 侧 的 列表 
中 ， 可 以 看 到 加 载 本 页 面 时 Chrome 执 行 的 请 求 。 在 这 个 简单 的 页 面 
中 ， 只 有 3 个 请 求 ，static/ 是 刚才 已 经 检查 过 的 请 求 ，jquery.min.js 用 
于 获取 一 个 流行 的 Javascript 框 架 的 代码 ; 而 apijson 看 起 来 会 让 我 们 产 
生 兴 趣 。 当 单 击 该 请 求 6) ， 并 单 击 右 侧 的 Preview 选项 卡 〈7) 时 ， 
就 会 发 现 这 里 面包 含 了 我 们 正在 寻找 的 数据 。 实 际 
上 ,http://localhost:9312/properties/api.json 包含 了 房产 的 
ID 和 名 称 〈8) ， 如 下 所 示 。 


"title": "better set unique family well" 
}s 
te de f 
"id": 29, 
"title": "better portered mile" 


}] 





这 是 一 个 非常 简单 的 JSON API 的 示例 。 更 复杂 的 API 可 能 需要 你 登 
录 ， 使 用 POST 请 求 ， 或 返回 更 有 趣 的 数据 结构 。 无 论 在 哪 种 情况 下 ， 
JSON 都 是 最 简单 的 解析 格式 之 一 ， 因 为 你 不 需要 编写 任何 XPath 表达 式 
就 可 以 从 中 抽取 出 数据 。 


Python 提供 了 一 个 非常 好 的 JSON 解 析 库 。 当 我 们 执行 Import 
json 时 ， 就 可 以 使 用 json.1loads(response.body) 解析 JSON， 将 其 
转换 为 由 Python 原 语 、 列 表 和 字典 组 成 的 等 效 Python 对 象 。 


我 们 将 第 3 章 的 manual.py 拷贝 过 来 ， 用 于 实现 该 功能 。 在 本 例 
中 ， 这 是 最 佳 的 起 始 选项 ， 因 为 我 们 需要 通过 在 JSON 对 象 中 找到 的 
ID， 手 动 创 建 房产 URL 以 及 Request 对 象 。 我 们 将 该 文件 重 命名 
为 api.py ， 并 将 疏 虫 类 重 命名 为 ApiSspider ，name 属性 修改 为 api 。 
新 的 start_urls 将 会 是 JSON API 的 URL， 如 下 所 示 。 





start urls = ( 
'http://web:9312/properties/api.json', 


) 








如 果 你 想 执 行 POST 请 求 ， 或 是 更 复杂 的 操作 ， 可 以 使 用 前 一 节 中 
介绍 的 start_requests() 方法 。 此 时 ， J DRE: 并 调 
用 包含 以 Response 为 参数 的 parse( ) 方法 。 可 以 通过 import json, 


使 用 如 下 代码 解析 JSON 对 象 。 


def parse(self, response): 
base_url = "http://web:9312/properties/" 
js = json.loads(response. body) 
for item in js: 


id = item["id"] 
url = base_url + "property_%e6d.html" % id 
yield Request(url, callback=self.parse item) 





前 面 的 代码 使 用 了 json.loads (response.body) , Response 
这 个 JSON 对 象 解析 为 Python 列表 ， 然 后 迭代 该 列表 。 对 于 列表 中 的 每 
一 项 ， 我 们 将 URL 的 3 个 部 分 (base_url 、property _%e6d 以 
及 .html ) 组 合 到 一 起 。base_url 是 在 前 面 定 义 的 URL 前 级 。%86d 是 
Python 语法 中 非常 有 用 的 一 部 分 ， 它 可 以 让 我 们 结合 Python 变量 创建 新 
的 字符 串 。 在 本 例 中 ，%86d 将 会 被 变量 id 的 值 蔡 换 《本 行 结尾 处 % 后 
面 的 变量 ) 。id 将 会 被 视 为 数字 (hd 表示 视 为 数字 ) ， 并 且 如 果 不 满 6 
位 ， 则 会 在 前 面 加 上 0， 扩 展 成 6 位 字符 。 比 如 ，id 值 为 5，%86d 将 会 
被 蔡 换 为 000005， 而 如 果 id 为 34322，%86d 则 会 被 替换 为 034322。 最 
终结 果 正 是 我 们 房产 页 面 的 有 效 URL。 我 们 使 用 该 URL 形 成 一 个 新 的 
Request 对 象 ， 并 像 第 3 章 一 样 使 用 yield 。 然 后 可 以 像 平时 那样 使 
用 scrapy crawl 运行 该 示例 。 





$ scrapy crawl api 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <GET ...properties/api.json> 


DEBUG: Crawled (200) <GET .../property_000029.htm1> 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 31, ... 


"item_scraped_count': 30, 





你 可 能 会 注意 到 结尾 处 的 状态 是 31 个 请 求 一 一 每 个 Item 一 个 请 求 ， 
以 及 最 初 的 api .json 的 请 求 。 


5.2.1 在 啊 应 间 传 参 


很 多 情况 下 ， 在 JSON API 中 会 有 感 兴 趣 的 信息 ， 你 可 能 想 要 将 它 
们 存储 到 Item 中 。 在 我 们 的 示例 中 ， 为 了 演示 这 种 情况 ，JSON APIS 
在 给 定 房产 信息 的 标题 前 面 加 上 "better"。 比 如 ， 房 产 标题 是 "Covent 
Garden"，API 就 会 将 标题 写 为 "Better Covent Garden"。 假 设 我 们 想 要 将 
这 些 "better" 开 头 的 标题 存储 到 Items 中 ， 要 如 何 将 信息 从 parse() 方法 
传递 到 parse_item( ) 方法 呢 ? 





Response 。 比 如 在 我 们 的 例子 中 ， 可 以 在 该 字典 中 设置 标题 值 ， 以 存 
储 来 自 JSON 对 象 的 标题 。 


title = item["title"] 


yield Request(url, meta={"title": title},callback=self.parse_ item) 





fEparse_item() 内 部 ， 可 以 使 用 该 值 蔡 代 之 前 使 用 过 的 XPath 表 


l.add value('title', response.meta['title'], 


MapCompose(unicode.strip, unicode.title)) 





你 会 发 现 我 们 不 再 调用 add_xpath() ， 而 是 转 为 调 
用 add_value() ， 这 是 因为 我 们 在 该 字段 中 将 不 会 再 使 用 到 任何 XPath 
表达 式 。 现 在 ， 可 以 使 用 scrapy crawl 运行 这 个 新 的 店 虫 ， 并 且 可 以 
在 PropertyItems 中 看 到 来 自 api.json 的 标题 。 





5.3 30 倍速 的 房产 爬虫 


有 这 样 一 种 趋势 ， 当 你 开始 使 用 一 个 框架 时 ， 做 任何 事情 都 可 能 会 
使 用 最 复杂 的 方式 。 你 在 使 用 Scrapy 时 也 会 发 现 自己 在 做 这 样 的 事情 。 
在 疯狂 于 XPath 等 扩 术 之 前 ， 值 得 停 下 来 想 一 想 : 我 选择 的 方式 是 从 网 
站 中 抽取 数据 最 简单 的 方式 吗 ? 





如 果 你 能 从 索引 页 中 抽取 出 基本 相同 的 信息 ， 束 可 以 避免 抓 取 每 个 
房 源 页 ， 从 而 得 到 数量 级 的 提升 。 


Q 
请 记 住 ， 很 多 网 站 在 其 索引 页 中 提供 了 不 同 的 项 目 数 量 选择 。 比 如 ， 一 
个 网 站 可 能 允许 你 通过 调整 参数 指定 每 个 索引 页 显示 的 房 源 数 是 10、50 还 是 


100， 如 &show=56 。 显 然 ， 如 果 是 这 样 的 情况 ， 就 可 以 将 该 参数 设置 为 允许 
的 最 大 值 。 
































比如 ， 在 房产 示例 中 ， 我 们 所 需要 的 所 有 信息 都 存在 于 索引 页 中 ， 
包括 标题 、 描 述 、 价 格 和 图 片 。 这 就 意味 着 只 抓 取 一 个 索引 页 ， 就 能 抽 
取 其 中 的 30 个 条 目 以 及 前 往 下 一 页 的 链接 。 通 过 疏 取 100 个 索引 页 ， 我 
们 只 需要 100 个 请 求 ， 而 不 是 3000 个 请 求 ， 就 能 够 得 到 3000 个 条 目 。 太 
棒 了 ! 





在 真实 的 Gumtree 网 站 中 ， 索 引 页 的 描述 信息 要 比 列表 页 中 完整 的 
描述 信息 稍 短 一 些 。 不 过 此 时 这 种 抓 取 方 式 可 能 也 古 可 行 的 ， 甚 至 也 能 


令 人 满意 。 


Q 
在 许多 情况 下 ， 我 们 将 不 得 不 权衡 数据 质量 与 请 求 数 量 的 关系 。 很 多 源 


都 会 限制 大 量 的 请 求 “ 后 续 章 节 会 遇 到 更 多 此 类 问题 ) ， 因 此 在 索引 中 获取 
也 可 能 帮助 我 们 解决 其 他 难题 。 

















在 我 们 的 例子 中 ， 当 查看 任何 一 个 索引 页 的 HTML 代 码 时 ， 就 会 发 
现 索 引 页 中 的 每 个 房 源 都 有 其 自己 的 节点 ， 并 使 
用 itemtype="http://schema.org/Product" 来 表示 。 在 该 节点 中 ， 
我 们 拥有 与 详情 页 完全 相同 的 方式 为 每 个 属性 注解 的 所 有 信息 ， 如 图 
5.4 所 示 。 
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</li> 
v <li> 
> <article class=" listing-maxi" itemscope itemtype="http://schema.org/Product" 









j="ad-featured-105 





</li> 
v<li> 
v«article class="listing-maxi" itemscopeMfi d="ad-featured-104! 
:before 
v <a class="listing-link" href=" '/p/ wit iS a i Fe Fe oe eee CC 
im n = ma" itemprop="url"> 


: :before 
> <div class="listing-side">..</div> 


<h2 class="listing-title" itemprop="name">..</h2> 

> <p class="listing-description truncate-paragraph 

hide-fully—to-m" itemprop="description">..</p> 

> <ul class="lListing-attributes inline-list hide—fully—to-m">..</ul> 

> <div class="listing-location" itemscope itemtype="http://schema.org/Place">..</div> 
<strong class="listing-price txt-emphasis" itemprop="price">£27@pw</strong> 





图 5.4 ”从 单一 索引 页 抽取 多 个 房产 信息 


我 们 在 Scrapy shell 中 加 载 第 一 个 索引 页 ， 并 使 用 XPath 表 达 式 进行 
测试 。 


$ scrapy shell http://web:9312/properties/index 6686060.html 





在 Scrapy shell 中 ， 尝 试 选取 所 有 帝 有 Product 标 签 的 内 容 : 


>>> p=response.xpath('//*[@itemtype="http://schema.org/Product"]') 


>>> len(p) 


>>> p 


[<Selector xpath='//*[@itemtype="http://schema.org/Product"]' data=u'<1li 


class="listing-maxi" itemscopeitemt'...] 





可 以 看 到 我 们 得 到 了 一 个 包含 30 个 Selector 对 象 的 列表 ， 每 个 对 
象 指 向 一 个 房 源 。 在 某 种 意义 上 ，Selector 对 象 与 Response 对 象 有 
些 相 似 ， 我 们 可 以 在 其 中 使 用 XPath 表达 式 ， 并 且 只 从 它们 指向 的 地 方 
获取 信息 。 唯 一 需要 说 明 的 是 ， 这 些 表 达 式 应 该 是 相对 XPath 表达 式 。 
相对 XPath 表达 式 与 我 们 之 前 看 到 的 基本 一 样 ， 不 过 在 前 面 增 加 了 一 
个 "点 写 。 举 例 说 明 ， 让 我 们 看 一 下 使 用 .//*[@itemprop="name" 
[1]/text() 这 个 相对 XPath 表达 式 ， 从 第 4 个 房 源 抽取 标题 时 是 如 何 工 
VEN. 





>>> selector = p[3] 


>>> selector 


<Selector xpath='//*[@itemtype="http://schema.org/Product"]' ... '> 


>>> selector.xpath('.//*[@itemprop="name"][1]/text()').extract() 


[u'l fun broadband clean people brompton european’ ] 





可 以 在 Selector 对 象 的 列表 中 使 用 for 循环 ， 抽 取 索 引 页 中 全 部 
30 个 条 目的 信息 。 


为 了 实现 该 目的 ， 我 们 再 一 次 从 第 3 章 的 manual.py EF, KJER 
重 命名 为 "fast"， 并 重 命名 文件 为 fast.py 。 我 们 将 复 用 大 部 分 代码 ， 
只 在 parse() 和 parse_items() 方法 中 进行 少量 修改 。 最 新 方法 的 代 
码 如 下 。 
def parse(self, response): 

# Get the next index URLs and yield Requests 

next_sel = response. xpath('//*[ contains (@class, "next" ) ]//@href' ) 


for url in next_sel.extract(): 
yield Request(urlparse.urljoin(response.url, url) ) 


# Iterate through products and create PropertiesItems 
selectors = response. xpath( 
'//*[@itemtype="http://schema.org/Product" ]' ) 
for selector in selectors: 
yield self.parse item(selector, response) 





在 代码 的 第 一 部 分 中 ， 对 前 往 下 一 个 索引 页 的 Request 的 yield 操 
作 的 代码 没有 变化 。 唯 一 改变 的 内 容 在 第 二 部 分 ， 不 再 使 用 yield 为 每 
个 详情 页 创建 请 求 ， 而 是 迭代 选择 器 并 调用 parse_item()。 其 
中 ，parse_item() 的 代码 也 和 原始 代码 非常 相似 ， 如 下 所 示 。 


def parse_item(self, selector, response): 
# Create the loader using the selector 
l = ItemLoader(item=PropertiesItem(), selector=selector) 


# Load fields using XPath expressions 

l.add_xpath('title', './/*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 

l.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[,.0-9]+') 

l.add_xpath('description', 
'.//*[@itemprop="description"][1]/text()', 
MapCompose(unicode.strip), Join()) 

l.add_xpath('address', 
".//*[@itemtype="http://schema.org/Place"]' 
"[1]/*/text()', 
MapCompose(unicode. strip) ) 

make_url = lambda i: urlparse.urljoin(response.url, i) 

l.add_xpath('image_ urls', './/*[@itemprop="image"][1]/@src', 
MapCompose(make_url)) 


Housekeeping fields 

.add_xpath('url', './/*[@itemprop="url"][1]/@href', 
MapCompose(make_url)) 

.add_value('project', self.settings.get('BOT_NAME') ) 

.add value('spider', self.name) 

.add_value('server', socket.gethostname() ) 

.add value('date', datetime.datetime.now()) 


m tf 


1 
1 
1 
1 


return 1.load_item() 





我 们 所 做 的 细微 变更 如 下 所 示 。 


e ItemLoader 现在 使 用 selector 作为 源 ， 而 不 再 是 Response 。 这 
是 ItemLoader API 一 个 非常 便捷 的 功能 ， 能 够 让 我 们 从 当前 选取 
的 部 分 《而 不 是 整个 页 面 ) 抽取 数据 。 

。 XPath 表达 式 通过 使 用 前 绥 点 号 〈.) 转 为 相对 XPath。 


Q 
比较 巧合 的 是 ， 在 我 们 的 例子 中 ， 索 引 页 和 详情 页 中 的 XPath 表达 式 是 


一 样 的 。 实 际 情况 并 不 总 是 这 样 ， 你 可 能 需要 重新 开发 XPath 表达 式 ， 以 匹 
配 索 引 页 的 结构 。 


























© 我们 必须 自己 编辑 Item 的 URL。 之 前 ，response.url 已 经 给 出 
了 房 源 页 的 URL。 而 现在 ， 它 给 出 的 是 索引 页 的 URL， 因 为 该 页 面 
才 是 我 们 要 扑 取 的 。 我 们 需要 使 用 熟悉 的 .//* 
[@itemprop="url" ][1]/@href 这 个 XPath 表达 式 抽 取出 房 源 的 
URL， 然 后 使 用 MapCompose 处 理 器 将 其 转换 为 绝对 URL。 


小 的 改变 能 够 市 省 巨大 的 工作 量 。 现 在 ， 我 们 可 以 使 用 如 下 代码 运 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=3 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 3, ... 


"item_scraped_count': 90,... 





和 预期 一 样 ， 只 用 了 3 个 请 求 ， 束 抓 取 了 90 个 条 日。 如 果 我 们 没有 
pe Ne tes 则 需要 93 个 请 求 。 这 种 方式 太 明 智 了 ! 





如 果 你 想 使 用 scrapy parse 进行 调试 ， 那 么 现在 必须 设置 spider 
参数 ， 如 下 所 示 。 


$ scrapy parse --spider=fast http://web:9312/properties/index_00000.html 


>>> STATUS DEPTH LEVEL 1 <<< 


# Scraped Items 


[{'address': [u'Angel, London'], 


. 30 items... 


# Requests 


[<GET http://web :9312/properties/index_@0001.html1>] 





正如 期 望 的 那样 ，parse() 返回 了 36 Item 以 及 一 个 前 往 下 一 索 
引 页 的 Request 。 请 使 用 scrapy parse 随意 试验 ， 比 如 传输 - - 
depth=2 。 


5.4 A&F Excel LER HY ME He 


KERRAT. BME Raa PIERE T, 
你 想 要 抓 取 的 数据 来 目 多 个 网 站 ， 此 时 唯一 变化 的 东西 就 是 所 使 用 的 
XPath 表 达 式 。 对 于 此 类 情况 ， 如 果 为 每 个 网 站 部 使 用 一 个 候 忠 则 显得 
有 些小 题 大 做 。 那 么 可 以 只 使 用 一 个 讨 虫 来 肘 取 所 有 这 些 网 站 吗 ? 答案 
EA Eo 





LEFT AZ SE BE “ST ME, ALA RRR A A AZ Ri 
区 别 很 大 《实际 上 我 们 还 没有 在 该 项 目 中 定义 任何 东西 ! ) 。 假 设 此 时 
在 che5 下 的 properties 目录 中 。 让 我 们 向 上 一 层 ， 如 下 面 的 代码 所 示 
进行 操作 。 
$ pwd 


/root/book/ch@5/properties 


$ cd .. 


$ pwd 


/root/book/ch@5 





我 们 创建 了 一 个 名 为 generic 的 新 项 目 ， 以 及 一 个 名 为 fromcsyv 的 
Me HE 


$ scrapy startproject generic 


$ cd generic 


$ scrapy genspider fromcsv example.com 





现在 ， 创 建 一 个 .csv 文件， 其 中 包含 想 要 抽取 的 信息 。 可 以 使 用 
一 个 电子 表格 程序 ， 比 如 Microsoft Excel， 来 创建 这 个 .csv 文件 。 填 入 
如 图 5.5 所 示 的 几 个 URL 和 XPath 表 达 式 ， 然 后 将 其 命名 为 todo. csv ， 
保存 到 息 虫 目录 当中 (scrapy .cfg 所 在 目录 ) 。 要 想 保存 为 .csv X 
件 ， 需 要 在 保存 对 话 框 中 选择 CSV 文 件 (Windows) 作为 文件 格式 。 





z] A | B | = 
1 juri name price 
2 | bttp://web:9312/static/a.html //*[@id="itemTitle"] /text() //*(@id="prelsum")/text() 
3 | http://web:9312/static/b.html //h1/text() //span/strong/text() 
_ 4 |htto://web:9312/static/c.html //*[@id="product-desc"]/span/text() 





图 5.5 ”包含 URL 和 XPath 表达 式 的 todo.csV 


很 好 ! 如 果 一 切 都 已 就 绪 ， 你 融 可 以 在 终端 上 看 到 该 文件 。 





$ cat todo.csv 


url,name, price 


a.html,"//*[@id=""itemTitle""]/text()","//*[@id=""prcIsum""]/text()" 


b. html, //h1/text(),//span/strong/text() 


c.htm1,"//*[@id=""product-desc""]/span/text()" 





Python 有 一 个 用 于 处 理 .csv 文件 的 内 置 库 。 只 需 通 过 import csv 
导入 模块 ， 然 后 就 可 以 使 用 如 下 这 些 直截了当 的 代码 ， 以 字典 的 形式 读 
取 文 件 中 的 所 有 行 了 。 在 当前 目录 下 打开 Python 提示 符 ， 束 可 以 符 试 如 
下 代码 。 


$ pwd 
/root/book/ch@5/generic2 
$ python 

>>> import csv 


>>> with open("todo.csv", "rU") as f: 


reader = csv.DictReader(f) 


for line in reader: 


print line 











文件 中 的 第 一 行 会 被 自动 作为 标题 行 处 理 ， 并 且 会 根据 它们 得 出 字 





典 中 键 的 名 称 。 在 接 下 来 的 每 一 行 中 ， 会 得 到 一 个 包含 行内 数据 的 字 
典 。 我 们 使 用 for 人 循环 兴 代 每 一 行 。 当 运行 前 面 的 代码 时 ， 可 以 得 到 如 下 
输出 。 





{'url': ' http://a.html', 'price': '//*[@id="prcIsum"]/text()', 
'name': '//*[@id="itemTitle"]/text()'} 
{'url': ' http://b.html', 'price': '//span/strong/text()', 'name': '// 


h1/text()'} 
{'url': ' http://c.html', 'price': '', 'name': '//*[@id="product- 
desc" ]/span/text()'} 








非常 好 。 现 在 ， 可 以 编辑 generic/spiders/fromcsv.py xe 
虫 了 。 我 们 将 会 用 到 .csv 文件 中 的 URL， 并 且 不 希望 有 任何 域名 限 
制 。 因 此 ， 首 先 要 做 的 事情 就 是 移 除 start_urls 以 及 
allowed_domains ， 然 后 读 取 .csv 文件 。 


由 于 我 们 事先 并 不 知道 想 要 起 始 的 URL， 而 是 从 文件 中 读 取得 到 
的 ， 因 此 需要 实现 一 个 start_requests() 方法 。 对 于 每 一 行 ， 创 建 
Request ， 然 后 对 其 进行 yield 操作 。 此 外 ， 还 会 在 reqeust.meta 中 
存储 来 自 csv 文件 的 字段 名 称 和 XPath 表达 式 ， 以 便 在 parse() 函数 中 
使 用 它们 。 然 后 ， 使 用 Item 和 ItemLoader 填充 Item 的 字段 。 下 面 是 
完整 的 代码 。 











import csv 

import scrapy 

from scrapy.http import Request 

from scrapy.loader import ItemLoader 
from scrapy.item import Item, Field 


class FromcsvSpider(scrapy.Spider): 
name = "fromcsv" 


def start_requests(self): 


with open("todo.csv", "rU") as f: 
reader = csv.DictReader(f) 
for line in reader: 
request = Request(line.pop('url')) 
request .meta[ fields'] = line 
yield request 


def parse(self, response): 
item = Item() 
l = ItemLoader(item=item, response=response) 
for name, xpath in response.meta['fields'].iteritems(): 
if xpath: 
item.fields[name] = Field() 
l.add_xpath(name, xpath) 
return 1.load_item() 





接 下 来 开始 爬 取 ， 并 将 结果 输出 到 out.csv 文件 中 。 





$ scrapy crawl fromcsv -o out.csv 


INFO: Scrapy 0.0.3 started (bot: generic) 


DEBUG: Scraped from <200 a.html> 


{'name': [u'My item'], ‘price’: [u'128']} 


DEBUG: Scraped from <200 b.html> 


{'name': [u'Getting interesting'], ‘price’: [u'300']} 


DEBUG: Scraped from <200 c.html> 


{'name': [u'Buy this now' ]} 


INFO: Spider closed (finished) 


$ cat out.csv 


price,name 


128,My item 


300,Getting interesting 


sBuy this now 





EUERE AGAR, ART Re! 





在 代码 中 ， 你 可 能 已 经 注意 到 了 几 个 事情 。 由 于 我 们 没有 为 该 项 目 
定义 系统 范围 的 Item ， 因 此 必须 像 如 下 代码 这 样 手 动 为 ItemLoader fé 


供 。 


item = Item() 
l = ItemLoader(item=item, response=response) 


此 外 ， 我 们 还 使 用 了 Itenm 的 成 员 变量 fields 动态 添加 字段 。 为 了 
能 够 动态 添加 新 字段 ， 并 通过 ItemLoader 对 其 进行 填充 ， 需 要 实现 的 
代码 如 下 。 





item.fields[name] = Field() 
l.add_xpath(name, xpath) 


最 后 ， 还 可 以 使 代码 更 加 好 看 。 硬 编码 todo.csv 文件 名 不 是 一 个 
非常 好 的 实践 。Scrapy 提 供 了 一 个 非常 便捷 的 方法 ， 用 于 传输 参数 到 把 
虫 当 中 。 当 传输 一 个 命令 行 参数 -a 时 (比如 : -a variable=value 
) ， 就 会 为 我 们 设置 一 个 怜 虫 属性 ， 并 且 可 以 通过 self.variable W 
得 该 值 。 为 了 检查 变量 ， 并 在 未 提供 该 变量 时 使 用 默认 值 ， 可 以 使 用 
Python 的 getattr() 方法 : getattr(self, ‘variable’, 
'default') 。 总 之 ， 我 们 将 原来 的 with open... 语句 替换 为 如 下 语 
iP 


with open(getattr(self, "file", "todo.csv"), "rU") as f: 








现在 ， 除 非 明 确 使 用 -a 参数 设置 源 文件 名 ， 否 则 将 会 使 
用 todo.csv 作为 其 默认 值 。 当 给 出 另 一 个 文件 another_todo.csv 
时 ， 可 以 按 如 下 方式 运行 。 


$ scrapy crawl fromcsv -a file=another_todo.csv -o out.csv 





55 本 章 小 结 


本 章 深 入 讨论 了 Scrapy 息 虫 的 内 部 机 制 。 我 们 学 习 了 使 
用 FormRequest 进行 登录 ， 使 用 Request/Response 的 meta 属性 传输 


变量 ， 使 用 相对 XPath 表达 式 和 Selector ， 以 及 使 用 .csv 文件 作为 源 


FY 
等 。 


接 下 来 ， 第 6 章 会 讲解 如 何 将 讨 虫 部 普 到 Scrapinghub 云 上 ， 第 7 重 将 
继续 深入 Scrapy 的 设置 。 


第 6 章 “” 部 署 到 Scrapinghub 


在 前 面 的 几 章 中 ， 我 们 了 解 了 如 何 开 发 Scrapy 爬 虫 。 当 我 们 对 疏 虫 
的 功能 感到 满意 时 ， 接 下 来 会 有 两 个 选项 。 如 果 我 们 需要 的 只 是 使 用 它 
们 执行 简单 的 抓 取 工作 ， 那 么 此 时 使 用 开发 机 运行 即 可 。 而 另 一 方面 ， 
更 常见 的 情况 是 需要 周期 性 地 运行 抓 取 任务 ， 此 时 可 以 使 用 云 服务 器 ， 
如 Amazon、RackSpace 或 其 他 提供 商 ， 不 过 这 些 都 需要 创建 、 配 置 和 维 
护 工 作 。 此 时 就 是 Scrapinghub 发 挥 作用 的 时 候 了 。 





Scrapinghub 是 Scrapy 托 管 的 Amazon 服 务 器 ， 它 是 由 Scrapy 开 发 者 创 
建 的 Scrapy 云 基础 设施 提供 商 。 它 是 一 个 付费 服务 ， 不 过 也 提供 了 免费 
方案 。 如 果 你 想 在 几 分 钟 内 ， 束 能 够 让 Scrapy 扑 虫 运行 在 专业 的 创建 和 
维护 环境 中 的 话 ， 那 么 本 章 非 常 适合 你 。 





6.1 JEM. Sx elem H 


第 一 步 是 在 http://scrapinghub.com/ EAEE =S. RAI i 
填写 的 只 有 邮箱 地 址 和 密码 。 在 单 击 确认 邮件 的 链接 后 ， 就 可 以 登录 到 
其 服务 中 。 我 们 可 以 看 到 的 第 一 个 页 面 是 个 人 面板 。 目 前 ， 我 们 还 没有 
任何 项 目 ， 因 此 现在 单 击 +Service 按钮 (1) 来 创建 一 个 项 目 ， 如 图 6.1 
所 示 。 
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图 6.1 在 scrapinghub 上 创建 新 项 目 


将 项 目 命名 为 properties (2) ， 然 后 单 击 Create 按钮 (3) 。 之 
后 ， 单 击 主页 的 new 链接 (4) 打开 该 项 目 。 








项 目 面 板 是 项 目 中 最 重要 的 页 面 。 在 左 侧 的 荣 单 中 ， 可 以 看 到 几 个 
区 域 ， 如 图 6.2 所 示 。Jobs 和 Spiders 区 域 分 别提 供 关 于 运行 和 把 虫 的 信 
ki. Periodic Jobs 允许 我 们 计划 定期 仆 取 任务 。 而 另外 4 个 区 域 目前 来 
说 对 我 们 没有 那么 有 用 。 


l Jobs 


scrapinghub 


properties 

project id: 28814 
organization: scrapybook 
0 spiders, 0 members 


Spiders 菜单 


Collections 
Usage 
Reports 
Activity 
Periodic jobs 


Settings 


Search 


Scrapy Cloud 





图 6.2” 主 菜单 


Pending Jot 


Running Jol 


我 们 可 以 直接 前 往 Settings 区 域 (1) ， 如 图 6.3 所 示 。 与 很 多 网 站 
的 设置 不 同 ，Scrapinghub 的 设置 提供 了 很 多 功能 ， 需 要 你 十 分 了 解 它 
们 。 目 前 ， 我 们 的 主要 关注 点 是 Scrapy Deploy 区 域 (2) 。 











scrapinghub search 


properties 
project id: 28814 


organization: scrapybook 


Scrapy Cloud 


0 spiders, 0 members 


Jobs 
Spiders 
Collections 
Usage 
Reports 
Activity 
Periodic } 
Settings 
Data Retention 
Eggs 
Items 
Members 


Scrapy Deploy 


> Notifications Help + 


properties Settings 


Copy and paste the following lines into your project's sc 


# Project: properties 


[deploy] 


url = httgs://dash.scrapinghub.com/api/scrapyd/ 


3. 复制 该 URL 


2 


/ 


Scrapy Deploy 








A633 CRBS 


6.2 MAERT 


我 们 将 直接 从 开发 机 进行 部 署 。 要 想 实 现 这 一 目标 ， 只 需 将 Scrapy 
Deploy 页 面 中 的 代码 (3) 找 贝 到 项 目 中 的 scrapy.cfg CHEF, Bik 
HAAA [deploy] 区 域 即 可 。 你 会 注意 到 我 们 并 不 需要 设置 密码 。 我 
们 将 使 用 第 4 章 中 的 房产 项 目 作为 示例 ， 使 用 该 息 虫 的 原因 是 目标 数据 
需要 能 够 在 网 络 上 访问 到 ， 和 第 4 章 使 用 的 情况 一 样 。 在 使 用 它 之 前 ， 
需要 恢复 原始 的 settings.py 文件 ， 移 除 和 Appery.io 管 道 相关 的 引 








本 章 代码 在 ch86 目录 中 。 其 中 ， 该 示例 位 于 ch86/properties 目录 



































$ pwd 


/root/book/ch@6/properties 


$ 1s 


properties scrapy.cfg 


$ cat scrapy.cfg 


[settings] 


default = properties.settings 


# Project: properties 


[deploy] 


url = http://dash.scrapinghub.com/api/scrapyd/ 


username = 180128bc7a@..... 50e8290dbf3b0 


password 


project = 28814 





为 了 部 署 聆 虫 ， 还 需要 使 用 Scrapinghub 提 供 的 shub 工具 。 可 以 通 
过 pip install shub 安装 该 工具 ， 不 过 我 们 已 经 在 开发 机 中 已 经 安装 
好 该 工具 了 。 可 以 使 用 下 述 方法 登录 Scrapinghub。 





$ shub login 


Insert your Scrapinghub API key : 180128bc7a0..... 56e8296dbf3b6 


Success. 


pO 


我 们 已 经 将 API key 复 制 到 scrapy.cfg 文件 中 了 ， 不 过 也 可 以 通过 
单 击 Scrapinghub 网 站 右上 角 的 用 户 名 ， 再 单 击 API Key 找到 该 值 。 无 论 
如 何 ， 现 在 我 们 已 经 准备 好 使 用 shub deploy WEEE Ss. 


$ shub deploy 


Packing version 1449092838 


Deploying to project "28814" in {"status": "ok", "project": 28814, 


"version": "1449992838", "spiders": 1} 


Run your spiders at: https://dash.scrapinghub.com/p/28814/ 





Scrapy 将 本 项 目 中 的 所 有 有 疏 虫 打包 ， 并 上 传 到 Scrapinghub 当 中 。 可 
以 注意 到 ， 此 时 产生 了 两 个 新 目录 和 一 个 新 文件 。 这 些 只 是 辅助 文件 ， 
如 果 不 需要 的 话 ， 可 以 安全 地 删除 它们 ， 不 过 通常 情况 下 没 必 要 在 意 它 
ae 








$ 1s 


build project.egg-info properties scrapy.cfgsetup.py 


$ rm -rf build project.egg-info setup.py 


现在 ， 当 单 击 Scrapinghub 的 Spiders 区 域 (1) 时 ， 可 以 找到 刚刚 部 
署 的 tomobile 爬虫 ， 如 图 6.4 所 示 。 


scrapingnuD 


properties 
project id: 28813 
organization: scrapybuy< 
1 spiders, 0 members 


Jobs 

| Spiders 
Collections 
Usage 
Reports 
Activity 


Periodic Jobs 


> Notifications Help ~ 


Scrapy Cloud properties Spiders 


Spiders 


2 


Spider name 


Archived spiders 


ider Last Run ^ 


tomobile 


10 $ Spiders per page 


图 6.4 AFERE 


当 单 击 它 时 《2) ， 会 进入 到 爬虫 面板 ， 如 图 6.5 所 示 。 该 面板 中 包 
含 大 量 信息 ， 不 过 目前 我 们 需要 做 的 就 是 单 击 右上 和 角 的 Schedule 按钮 
(3) ， 然 后 在 弹出 的 对 话 框 中 再 次 单 击 Schedule 按钮 (4) 。 


Fr====--==-=-==--=---==--==-=--======-=-=----===---=--=---==-=-==-~=-=-=-=-=-“ 


| Watch ~ | Go to Portia pee ee 
! Schedule Spider i 
3 i Current version ' 
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ee ee ee ee ee en eee 
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i 
i Priority 
1 
Normal 


| Running Jorg (1) 5 | Ni 


a 4 Job Spider ltems £ We Errors Log Runtime ， EE 


1/1 {ORF sso 423 391 0 wo oma ee 


: so 本 一 7 a Svea eee see aioe 
| | Completed Jobs (1) 


Job Spider í Niz ae 
tomobil : 
1/1 1449097769 mo | 


Remove Restart 


图 6.5 thee seis 4 


几 秒 钟 之 后 ， 可 以 在 页 面 中 的 Running Jobs 区 域 看 到 新 的 一 行 ， 之 
后 Requests 和 Items 的 数值 (5) 开始 不 断 增 长 。 





与 开发 时 的 运行 速度 相 比 ， 此 时 的 运行 速度 可 能 不 会 降低 。Scrapinghub 
使 用 了 算法 预 估 每 秒 的 请 求 数 ， 能 够 让 你 在 执行 时 不 会 被 屏蔽 。 





让 它 运行 一 会 儿 ， 然 后 选择 该 任务 的 复 选 框 (6) ， 并 单 击 Stop H 
SH CZY 


几 秒 钟 之 后 ， 我 们 的 任务 将 会 停止 ， 并 进入 Completed Jobs X 3%. 
要 想 查 看 已 经 抓 取 的 条 目 ， 可 以 单 击 items 链 接 中 的 数字 (8) 。 


6.3 访问 item 


现在 ， 我 们 需要 前 往 任务 页 ， 如 图 6.6 所 示 。 在 该 页 中 ， 可 以 查看 
到 我 们 的 item (9) ， 并 确保 其 没有 问题 。 我 们 还 可 以 使 用 上 面 的 控件 
进行 过 滤 。 当 向 下 滚动 页 面 时 ， 更 多 的 item 会 被 自动 加 载 出 来 。 


11 ke JE] 
Items (799) Requests (1620) Log (22) Stats < 全 -一 10 Get as 





~ = ~ = CSV 
Filter by Field: Choos j v Choos r 7 Allitems 
JSON 
Item 0 2015-12-02 21:49:10 UTC 9 JSON Lines 
same XML 
description smoking Sample 
reception refurbished studio length selection newington fi de Random 
price 280.03 Latest 
url http: / /scrapybook.s3.amazonaws.com/properties/pry 000.html 
address Chiswick, London 


date 1449092934903 
image_urls http://scrapybook.s3.amazonaws.com/images/il3.jpg 
project properties 

hw-shared-02-s4 


图 6.6 ”查看 及 导出 item 


如 果 存 在 一 些 没 能 正常 运行 的 情况 ， 可 以 在 Items 上 方 的 Requests 
和 Log 中 找到 有 用 的 信息 (10〉。 可 以 使 用 顶部 的 面包 恬 导 航 回 到 扑 忠 
或 项 目 中 (11) 。 当 然 ， 也 可 以 通过 单 击 左上 方 的 Items 按钮 (12) ， 
选择 合适 的 选项 (13) ， 将 item 以 常见 的 CSV、JSON、JSON 行 等 格式 
下 载 下 来 。 








另 一 种 访问 item 的 方式 是 通过 Scrapinghub 提 供 的 Items API。 我 们 所 
需 做 的 束 是 查看 任务 或 items 页 面 中 的 URL， 类 似 于 下 面 这 样 。 








https://dash.scrapinghub.com/p/28814/job/1/1/ 


[L CR 


在 该 URL 中 ，28814 是 项 目 编号 〈 之 前 在 scrapy.cfg 文件 中 设置 
过 该 值 )， 第 一 个 1 是 该 息 虫 的 编号 /[D〔 即 "tomobile "(EH , ME 
个 1 则 是 任务 编写。 以 上 述 顺 序 使 用 这 3 个 数值 ， 并 使 用 我 们 的 用 户 
名 /API Key 进 行 验证 ， 就 可 以 在 控制 台中 使 用 curl 建立 
到 https://storage.scapinghub.com/ items/<project 
id>/<spider id>/<job id> 的 请 求 ， 获 取 item， 该 过 程 如 下 所 示 。 





$ curl -u 186128bc7a6 50e8290dbf3b0: https://storage.scrapinghub.com/ 


items/28814/1/1 


{"_type":"PropertiesItem","description":["same\r\nsmoking\r\nr... 


{"_type":"PropertiesItem","description":["british bit keep eve... 





如 采 它 请 求 输入 密码 ， 我 们 将 其 留 空 即 可 。 多 许 编程 访问 数据 的 特 
性 使 得 我 们 可 以 编写 应 用 ， 使 用 Scrapinghub 作 为 数据 存储 后 端 。 不 过 需 
要 注意 的 是 ， 这 些 数据 并 不 是 无 限期 存储 的 ， 而 是 依赖 于 订阅 方案 中 的 
存储 时 间 限 制 “ 对 于 免费 方案 来 说 该 限制 为 7 天 ) 。 





6.4 计划 定时 爬 取 


现在 当 你 听 到 计划 定时 诬 取 任务 只 需要 单 击 几 下 鼠标 的 话 ， 应 该 不 


会 再 感到 惊讶 了 。 


该 过 程 如 图 6.7 所 示 。 
击 Add (2), RAEE 
可 (5) 。 


Search 


scrapinghub 


properties Scrapy Cloud 


project id: 28814 
organization: scrapybook 
1 spiders, 0 members 


Spiders 
Month 
Jobs 
Spiders 1 


Collections 


Scripts 


Usage 
Reports 
Activity 

| Periodic Jobs 
Settings 


6.5 本章 小 结 


! Add Periodic Job 


! Spiders P4 
' tomobile 


No scripts, | 


1 Arguments © 


我 们 只 需要 前 往 Periodic Jobs 区 域 (1) , % 
(3) , WER (4) ， 最 后 单 击 Save 即 


scrapybook @ 


Notifications Help ~ Status Changelog 


properties Periodic Jobs 


ed Actions 


Choose Month 


Every month 
| Tags Choose Day of Week 
! T Every day 
| Priority 4 Choose Day of Month 
Normal 4 Every day 


ee 


Choose Hour 


Every hour 


Choose Minutes 


00 


图 6.7 thE RT ERK 


在 本 章 中 ， 我 们 拥有 了 第 一 次 部 普 Scrapy 项 目的 经 验 ， 这 里 我 们 使 
用 了 Scrapinghub 将 其 部 署 到 云端 。 我 们 计划 运行 任务 ， 收 集 上 干 个 
item， 并 且 可 以 通过 使 用 API 的 方式 非常 容易 地 浏览 和 抽取 它们 。 在 接 








下 来 的 章节 中 ， 我 们 将 会 继续 提高 知识 水 平 ， 为 自己 创建 一 个 类 似 
Scrapinghub 的 小 型 服务 器 。 首 先 ， 我 们 会 在 下 一 章 中 学 习 配 置 和 管理 。 





第 7 章 ”配置 与 管理 


前 面 章节 讲解 了 使 用 Scrapy 开 发 一 个 简单 肘 虫 ， 并 用 它 从 网 络 上 抽 
取 数 据 是 多 么 简单 。Scrapy 包 含 很 多 工具 和 功能 ， 可 以 通过 设置 使 它们 
可 用 。 对 于 许多 软件 框架 来 说 ， 设 置 是 “ 令 人 讨厌 的 东西 >， 因 为 它 需 要 
根据 系统 如 何 运转 进行 调整 。 而 对 于 Scrapy 来 说 ， 设 置 则 是 其 最 重要 的 
基本 机 制 之 一 ， 除 了 调 优 和 配置 外 ， 还 可 以 启用 功能 ， 以 及 允许 我 们 扩 
展 框架 。 我 们 不 打算 与 优秀 的 Scrapy 文 档 竞 争 ， 只 想 辅 助 你 更 快 地 浏览 
设置 概况 ， 并 找 出 与 你 最 相关 的 内 容 。 当 你 准备 在 生产 环境 中 进行 变更 
之 前 ， 请 仔细 陪读 Scrapy 文 档 。 








7.1 使 用 Scrapy 设 置 


在 Scrapy 中 ， 可 以 按照 5 个 递增 的 优先 级 修改 设置 。 我 们 将 会 依次 
看 到 这 5 个 等 级 。 第 一 级 是 默认 设置 ， 通 种 不 需要 修改 它 ， 不 过 
scrapy/settings/default_settings.py (在 系统 的 Scrapy 源 代码 
或 Scrapy 的 GitHub 中 可 以 找到 〉 中 的 代码 确实 值得 一 读 。 默 认 设置 在 命 
令 级 别 中 得 以 优化 。 实 际 上 ， 除 非 想 要 实现 自 定义 命令 ， 否 则 无 需 考 虑 
它 。 通 常情 况 下 ， 我 们 只 会 在 命令 级 别 下 一 级 的 项 目 
<project_name>/settings.py 文件 中 修改 设置 。 这 些 设置 只 应 用 于 
当前 项 目 。 该 级 别 最 为 方便 ， 因 为 当 我 们 将 项 目 部 普 到 云 服 务 
时 ，settings.py 文件 将 会 打包 在 其 中 ， 并 且 由 于 它 是 一 个 文件 ， 
此 可 以 使 用 自己 喜欢 的 文本 编辑 器 轻松 调整 几 十 个 设置 。 接 下 来 一 级 是 





每 个 爬虫 的 设置 。 通 过 在 爬虫 定义 中 使 用 custom_settings 属性 ， 可 
以 轻松 地 为 每 个 息 虫 自 定 义 设置 。 比 如 ， 可 以 通过 该 设置 为 一 个 指定 的 
和 候 虫 启用 或 禁用 Item 管 道 。 最 后 ， 对 于 一 些 临时 修改 ， 可 以 使 用 命令 行 
参数 -s ， 在 命令 行 中 传输 设置 。 我 们 在 前 面 已 经 使 用 过 几 次 ， 比 如 -s 
CLOSESPIDR PAGECOUNT=3, BUH FR Aenea, MEERES 
早 关 闭 。 在 该 级 别 中 ， 我 们 可 能 会 去 设置 API secrets、 密 码 等 。 不 要 将 
这 些 信息 写 入 settings.py 文件 中 ， 因 为 你 不 会 希望 它们 意外 出 现在 
某 些 公开 代码 库 当 中 。 








在 本 市 中 ， 我 们 将 会 研究 一 些 非常 重要 的 常用 设置 。 为 了 感受 不 同 
类 型 ， 可 以 在 任意 项 目 中 尝试 如 下 命令 。 








$ scrapy settings --get CONCURRENT_REQUESTS 





你 得 到 的 是 其 默认 值 。 然 后 ， 修 改 项 目 中 的 
<project_name>/settings.py 文件 ， 为 CONCURRENT_REQUESTS 设 
置 一 个 值 ， 比 如 14。 此 时 ， 前 面 的 scrapy settings 命令 将 会 给 出 你 
刚刚 设置 的 那个 值 ， 之 后 不 要 忘记 恢复 该 值 。 接 下 来 ， 尝 试 从 命令 行 中 
显 式 设置 该 参数 ， 将 会 得 到 如 下 结 











$ scrapy settings --get CONCURRENT_REQUESTS -s CONCURRENT_REQUESTS=19 


19 


前 面 的 输出 提示 了 一 个 很 有 意思 的 事情 。scrapy cwarl 和 scrapy 
settings 都 只 是 命令 。 每 个 命令 都 能 使 用 刚才 描述 的 加 载 设置 的 方 
法 ， 其 示例 如 下 所 示 。 





$ scrapy shell -s CONCURRENT REQUESTS=19 


>>> settings.getint("CONCURRENT_ REQUESTS') 





当 需 要 找 出 项 目 中 茶 个 设置 的 有 效 值 时 ， 可 以 使 用 前 面 给 出 的 任意 
一 种 方法 。 现 在 ， 我 们 需要 更 加 仔细 地 了 解 Scrapy 的 设置 。 


2 
Scrapy 包 含 非 常 多 的 设置 ， 因 此 为 其 分 类 成 为 了 一 个 迫切 的 需求 。 


我 们 将 会 从 图 7.1 中 总 结 出 的 大 部 分 基本 设置 开始 讨论 。 通 过 它们 了 解 
重要 的 系统 特性 ， 并 且 我 们 还 将 频繁 地 调整 它们 。 
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图 7.1 ”Scrapy 基 本 设置 
7.2.1 分 析 


使 用 这 些 设置 ， 你 可 以 配置 Scrapy， 使 其 通过 日 志 、 统 计 和 Telnet 
具 提 供 性 能 和 调试 信息 。 


i. Ae 


Scrapy 基 于 严重 程度 ， 拥 有 不 同 的 日 志 等 级 : DEBUG (最 低 等 
级 ) ~ INFO. WARNING 、ERROR 及 CRITICAL a: RIEZ 
外 ， 还 有 一 个 SILENT 等 级 ， 使 用 它 将 不 记录 任何 日 志 。 通 
将 LOG_LEVEL 设置 为 希望 日 志 记 录 的 最 低级 别 ， js 











受 指定 等 级 以 上 的 日 志 。 我 们 一 般 将 该 值 设 为 INFO ， 因 为 DEBUG 级 别 
过 于 详细 。 一 个 非常 有 用 的 Scrapy 扩 展 是 Log Stats 扩 展 ， 该 扩展 会 打印 
出 每 分 钟 抓 取 的 item 和 页 面 的 数量 。 日 志 频 率 使 用 LOGSTATS_INTERVAL 
进行 设置 ， 其 默认 值 为 60 秒 。 该 设置 的 频率 过 低 ， 所 以 在 我 开发 时 ， 
将 该 值 设置 为 5 秒 ， 因 为 大 多 数 运行 都 很 短暂 。 Sores anny 
WLOG FILE 设置 。 除 非 将 LOG_ENABLED 的 值 设置 为 False 进行 显 式 禁 
， 否 则 日 志 将 会 输出 到 标准 错误 当中 。 最 后 ， 可 以 通过 设 

置 LOG_STDOUT 为 True ， 告 知 Scrapy 将 所 有 标准 输出 (比如 : "print" 消 
ED 257 cans 











2. Bit 


STATS DUMP 默认 是 开启 的 ， 它 会 在 爬虫 结束 运行 时 ， 将 统计 信息 
收集 器 中 的 值 转 存 到 日 志 当 中 。 可 以 通过 将 DOWNLOADER_STATS 设置 
为 False ， 控 制 是 否 为 下 载 记录 统计 信息 。 还 可 以 通过 DEPTH_STATS 
设置 ， 控 制 是 否 收集 站 点 深度 的 统计 信息 。 要 想 了 解 有 关 深 度 的 更 多 细 
节 ， 可 以 将 DEPTH_STATS_VERBOSE 设 为 True 。STATSMAILER_RCPTS 
是 一 个 邮件 列表 (比如 设置 为 ['my@mail.com'] ) ， 当 疏 取 完成 时 ， 
会 癌 该 列表 中 的 邮箱 发 送 邮件 。 无 需 经 常 调整 这 些 设 置 ， 不 过 它们 偶尔 
会 在 调试 时 帮助 到 你 。 





3. Telnet 


Scrapy 包 含 一 个 内 置 的 Telnet 控 制 台 ， 可 以 为 你 提供 正在 运行 中 的 
Scrapy 进 程 的 Python shell。TELNETCONSOLE_ENABLED 默认 情况 下 是 开 
启 的 ， 而 TELNETCONSOLE_PORT 决定 了 连接 到 控制 台 的 端口 。 你 可 能 需 
要 修改 该 值 ， 以 防止 端口 冲突 。 


示例 1 一 一 使 用 Telnet 


在 某 些 情况 下 ， 需 要 查看 正在 运行 的 Scrapy 的 内 部 状态 。 下 面 让 我 
们 看 看 如 何 使 用 Telnet 控 制 台 完成 该 操作 。 


本 章 代 码 位 于 ch87 目录 中 。 其 中 ， 本 示例 在 che7/properties 目录 





























$ pwd 


/root/book/ch@7/properties 


$ 1s 


properties scrapy.cfg 





使 用 如 下 命令 开始 爬 取 。 





$ scrapy crawl fast 


[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023 


pO 


上 面 的 消息 意味 着 Telnet 已 经 被 激活 ， 并 且 使 用 6023 端 口 进行 监 
听 。 现 在 ， 可 以 在 另 一 个 终端 中 ， 使 用 telnet 命 令 连 接 它 。 


$ telnet localhost 6023 





此 时 ， 该 控制 台 会 提供 一 个 Scrapy 内 部 的 Python 控制 台 。 你 可 以 查 
看 某 些 组 件 ， 比 如 使 用 engine 变量 查看 引擎 ， 不 过 为 了 能 够 更 快 地 了 
解 状态 概况 ， 可 以 使 用 est() 命令 。 





>>> est() 


Execution engine status 


time()-engine.start time : 5.73892092705 
engine.has_capacity() : False 
len(engine.downloader.active) : 8 


len(engine.slot.inprogress) : 10 


len(engine.scraper.slot.active) : 2 





第 10 章 将 会 探讨 其 中 的 一 些 度量 标准 。 此 时 将 发 现 你 依然 是 在 
Scrapy 引 擎 内 部 运行 它 。 假 设 使 用 了 如 下 命令 


>>> import time 


>>> time.sleep(1) # Don't do this! 





此 时 ， 你 会 发 现在 另 一 个 终 WR ee 显然 ， 该 控制 
台 不 是 用 来 计算 Pi 值 前 100 万 位 的 合 也 点 。 你 可 以 在 该 控制 台中 操作 
的 事情 还 包括 暂停 、 继 续 RE ne 在 远程 机 器 操作 
Scrapy 会 话 时 ， 这 些 事情 和 终端 通常 都 很 有 用 。 











>>> engine.pause() 


>>> engine.unpause() 


>>> engine.stop() 


Connection closed by foreign host. 


7.2.2 ”性 能 


第 10 章 将 会 详细 介绍 关于 性 能 的 设置 ， 这 里 仅 作 为 一 个 小 结 。 性 能 
设置 可 以 让 我 们 根据 特定 的 工作 负载 调整 Scrapy 的 性 能 特 
性 。CONCURRENT_REQUESTS 用 于 设置 同时 执行 的 最 大 请 求 数 。 大 多 数 
情况 下 ， 该 设置 用 于 防止 在 爬 取 不 同 网 站 GRIP) 时 超出 服务 器 出 站 
容量 。 除 此 之 外 ， 还 可 以 找到 更 加 严格 的 
CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 这 两 个 设置 分 别 通过 限制 同时 对 每 
个 域名 或 IP 地 址 发 出 的 请 求 数 ， 达 到 保护 远程 服务 器 的 效果 。 
当 CONCURRENT_REQUESTS_PER_IP 为 非 零 值 
时 ，CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 。 这 些 设置 不 是 
以 秒 为 单位 的 。 如 果 CONCURRENT_REQUESTS = 16 ， 而 请 求 平均 花费 
1/4 秒 的 话 ， 你 的 限制 就 是 每 秒 16/0.25 = 64 个 请 求 。CONCURRENT_ITEMS 
用 于 设置 对 每 个 啊 应 同时 处 理 的 最 大 item 数 量 。 你 可 能 会 发 现 该 设置 并 
没有 它 看 起 来 那么 实用 ， 因 为 很 多 情况 下 ， 每 个 页 面 或 请 求 中 只 有 一 
个 Item 。 并 且 ， 其 默认 值 100 也 比较 随意 。 如 果 减 小 该 值 ， 比 如 减 小 到 
10 或 者 1， 你 甚至 可 能 会 看 到 性 能 提升 ， 这 取决 于 每 个 请 求 的 Item 数 
量 ， 以 及 管道 的 复杂 程度 。 还 需要 注意 的 是 ， 由 于 该 值 是 每 个 请 求 时 的 
数量 ， 如 果 限 制 了 CONCURRENT_REQUESTS = 16 
、CONCURRENT_ITEMS = 166 ， 那 么 可 能 意味 着 会 有 1600 个 item 同 时 在 
尝试 写 入 数据 库 。 一 般 来 说 ， 建 议 将 该 值 设 置 得 更 保守 一 些 。 























对 于 下 载 ，DOWNLOAD_TIMEOUT 决定 了 下 载 器 在 取消 一 个 请 求 之 前 
需要 等 待 的 时 间 ， 其 默认 值 为 180 秒 ， 这 似乎 有 些 偏 高 〈 当 并 发 请 求 数 
为 16 时 ， 这 意味 着 站 点 下 载 的 速度 大 约 为 5 页 /分 钟 )。 建 议 降低 该 值 ， 
比如 当 存 在 超时 间 题 时 ， 将 其 降低 为 10 秒 。 默 认 情 况 下 ，Scrapy 将 两 次 
下 载 间 的 延迟 设置 为 0， 以 最 大 化 抓 取 速 度 。 可 以 使 用 DONNLOAD_DELAY 
设置 将 其 修改 为 更 加 保守 的 下 载 速 度 。 有 些 网 站 会 将 请 求 频率 作为 “机 
器 人 ”行为 的 测量 指标 。 通 过 设置 DOWNLOAD_DELAY ， 还 会 在 下 载 延 迟 
中 启用 一 个 +50% 的 随机 偏 移 量 。 可 以 通过 
将 RANDOMIZE_DOWNLOAD_DELAY 设置 为 False 来 禁用 该 功能 。 














最 后 ， 为 了 更 快 的 DNS 查找 ，Scrapy 默 认 使 用 了 
DNSCACHE_ENABLED 设置 ， 启 用 了 内 存 中 的 DNS 缓存 。 


7.2.3 FERT Ibe 


ScrapyH'JCloseSpiderd } FJ U ÆA RETRAIN, HAEE 
取 。 可 以 分 别 使 用 CLOSESPIDER_TIMEOUT (以 秒 
计 ) 、CLOSESPIDER_ITEMCOUNT 、CLOSESPIDER_PAGECOUNT 以 及 
CLOSESPIDER_ERRORCOUNT 这 些 设置 ， 配 置 在 一 段 时 间 后 、 抓 取 一 定 
数量 item 后 、 接 收 到 一 定数 量 响应 后 或 是 过 到 一 定数 量 错误 后 ， 关 闭 扑 
虫 。 通 常情 况 下 ， 你 会 在 运行 仆 虫 时 使 用 命令 行 的 方式 设置 这 些 内 容 ， 
我 们 已 经 在 前 面 的 几 章 中 做 过 几 次 此 类 操作 。 























$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=16 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10 


$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=16 





7.2.4 HTTP 缓存 和 离线 运行 


Scrapy 的 HttpCacheMiddleware 组 件 〈 默 认 未 激活 ) 为 HTTP 请 求 
和 响应 提供 了 一 个 低级 的 缓存 。 当 局 用 该 组 件 时 ， 绥 存 会 存储 每 个 请 求 
及 其 对 应 的 响应 。 通 过 将 HTTPCACHE_POLICY 设置 
为 scrapy.contrib .httpcache.RFC2616Policy ， 可 以 启用 一 个 遵从 
RFC2616 的 更 复杂 的 缓存 策略 。 为 了 局 用 该 缓存， 还 需要 
将 HTTPCACHE_ENABLED 设置 为 True ， 并 将 HTTPCACHE_DIR 设置 为 文 
件 系 统 中 的 一 个 目录 《使 用 相对 路 径 将 会 在 项 目的 数据 文件 夹 下 创建 一 
个 目录 )。 





还 可 以 选择 通过 设置 存储 后 端 类 HTTPCACHE_STORAGE 
为 scrapy.contrib.httpcache.DbmCacheStorage ， 为 缓存 文件 指 
定数 据 库 后 端 ， 并 且 还 可 以 选择 调整 HITPCACHE_DBM_MODULE 设 
置 (默认 为 任意 数据 库 管理 系统 ) 。 还 有 一 些 设置 可 以 用 于 缓存 行为 调 
优 ， 不 过 默认 值 已 经 能 够 为 你 很 好 地 服务 了 。 





示例 2 一 使 用 缓存 的 离线 运行 





假设 你 运行 了 如 下 代码 : 





$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=5000 


[L CR 


你 会 发 现 大 约 一 分 钟 后 运行 可 以 完成 。 如 果 此 时 无 法 访问 Web 服 务 
器 ， 可 能 就 无 法 爬 取 任何 数据 。 假 设 你 现在 使 用 如 下 代码 ， 再 次 运行 爬 
Hh 





$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=50@0 -s 


HTTPCACHE_ENABLED=1 


INFO: Enabled downloader middlewares:...*HttpCacheMiddleware* 











你 会 注意 到 此 时 启用 了 HttpCacheMiddleware ， 当 查看 当前 目录 
下 的 隐藏 目录 时 ， 将 会 发 现 一 个 新 的 .scrapy 目录 ， 目 录 结 构 如 下 所 


ZN o 











$ tree .scrapy | head 


.Scrapy 


L— httpcache 


L— easy 


— oo 


| — 962654968919f13763a7292c1967caf66d5a4816 


| | | 一 meta 


| | | 一 pickled_meta 


| | | 一 request_body 


| | | 一 request_headers 


| | | 一 response_body 





现在 ， 如 果 重 新 运行 息 虫 ， 获 取 上 略 少 于 前 面 数量 的 item 时 ， 残 会 及 
现 即 使 在 无 法 访问 Web 服 务 器 的 情况 下 ， 也 能 完成 得 更 加 迅速 。 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=4566 -s 


HTTPCACHE_ENABLED=1 





我 们 使 用 了 略 少 于 前 面 数量 的 item 作 为 限制 ， 是 因为 当 使 
用 CLOSESPIDER_ITEMCOUNT 结束 时 ， 一 般 会 在 爬虫 完全 结束 前 读 取 更 
多 的 页 面 ， 但 我 们 不 希望 命中 的 页 面 不 在 绥 存 范围 内 。 要 想 清理 缓存 ， 
只 需 删除 绥 存 目录 即 可 。 


$ rm -rf .scrapy 


7.2.5 JERKS 


Scrapy 人 允许 我 们 调整 选择 优先 爬 取 页 面 的 方式 。 可 以 
在 DEPTH_LIMIT 设置 中 设 定 最 大 深度 ， 该 值 为 0 时 表示 不 限制 。 通 过 
DEPTH_PRIORITY 设置 ， 可 以 基于 请 求 的 深度 指定 优先 级 。 最 值得 注意 
的 是 ， 可 以 将 该 值 设置 为 正 数 ， 以 执行 广度 优先 仆 取 ， 并 将 任务 队列 由 
LIFO 《后 入 先 出 〉 转 为 FIFO〔 先 入 先 出 〉: 





DEPTH_PRIORITY = 1 


SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' 


SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' 








在 爬 取 时 进行 这 些 设 置 非常 有 用 ， 比 如 ， 在 一 个 新 闻 门 户 网 站 中 ， 





最 近 的 新 闻 更 应 该 接近 首页 ， 并 且 每 个 新 闻 页 都 有 到 其 他 相关 新 闻 的 链 
接 。Scrapy 的 默认 行为 是 对 首页 的 前 几 个 新 闻 报 道 进行 尽 可 能 深 地 让 
取 ， 之 后 才 会 继续 爬 取 接 下 来 的 头 厂 新 闻 。 而 广度 优先 的 顺序 则 是 首先 
息 取 最 顶层 的 新 闻 ， 之 后 才 会 进一步 深入 ， 当 结合 DEPTH_LIMIT 设置 
时 ， 比 如 设 为 3， 可 以 让 你 快速 浏览 门户 网 站 中 最 近 的 新 闻 。 


网 站 在 其 根 目录 下 使 用 Web 标 准 的 robots .txt 文件 ， 声 明 它 们 人 允 
许 的 爬 取 策 略 ， 以 及 不 希望 被 访问 的 网 站 结构 。 如 果 
将 ROBOTSTXT_OBEY 设置 为 True ，Scrapy 将 会 遵守 该 约定 。 如 果 启 用 了 
该 设置 ， 请 在 调试 时 记 住 该 点 ， 以 防 发 现任 何 意 外 的 行为 。 


CookiesMiddleware 显然 包含 了 和 cookie 相关 的 所 有 操作 ， 其 中 
包括 会 话 跟 踪 、 人 准许 登录 等 。 如 果 你 想 拥 有 更 “私密 ”的 息 取 ， 可 以 通过 
将 COOKIES_ENABLED 设置 False 以 禁用 。 禁 用 cookie 还 会 轻微 降低 你 使 
用 的 带宽 ， 并且 可 能 会 对 你 的 候 取 操作 有 一 点 提速 ， 当 然 它 会 依赖 于 你 
把 取 的 网 站 。 与 CookiesMiddleware 类 似 ，REFERER_ENABLED 的 默认 
设置 是 True ， 即 局 用 了 用 于 填充 Referer 头 的 RefererMiddleware 。 可 
以 使 用 DEFAULT_REQUEST_HEADERS 自 定义 头 部 。 你 可 能 会 发 现 该 设置 
对 于 某 些 奇怪 的 网 站 很 有 用 ， 在 这 些 网 站 中 只 有 包含 了 特定 请 求 头 的 请 
求 才 不 会 被 禁止 。 最 后 ， 自 动 生 成 的 settings .py 文件 推荐 我 们 设 
置 USER_AGENT 。 该 设置 的 默认 值 是 Scrapy 的 版 本 ， 而 我 们 需要 将 其 修 








改 为 能 够 让 网 站 拥有 者 联系 到 我 们 的 信息 。 
7.2.6 feed 


feed 可 以 让 你 将 Scrapy 抓 取得 到 的 数据 输出 到 本 地 文件 系统 或 远程 
服务 器 当中 。FEED_URI.FEED_URI 决定 了 feed 的 位 置 ， 该 设置 中 可 能 
会 包含 命名 参数 。 比 如 ，scrapy fast -o "%(name)s % 
(time)s.jl" 将 会 自动 以 当前 时 间 和 扑 虫 名 称 Cast ) 填充 输出 文件 
名 。 如 果 需 要 使 用 一 个 自 定义 参数 ， 比 如 %(foo)s ， 那 么 feed 输出 器 
需要 你 在 聆 虫 中 提供 foo 属性 。 此 外 ，feed 的 存储 ， 如 S3、FTP 或 本 地 
文件 系统 ， 也 定义 在 URI 中 。 例 
如 ，FEED_URI='s3://mybucket/file.json' 将 使 用 你 的 Amazon 赁 
证 CAWS_ACCESS_KEY_ID 和 ANWS_SECRET_ACCESS_KEY ) 上 传 文件 到 
Amazon 的 S3 当 中 。Feed 的 格式 (JSON, JSON Line、CSV 及 XML ) 可 
以 使 用 FEED_FORMAT 确定 。 如 果 没 有 设 定 该 设置 ，Scrapy 将 会 根 
据 FEED_URI 的 扩展 名 猜测 格式 。 通 过 将 FEED_STORE_EMPTY 设置 
为 True ， 可 以 选择 输出 空 的 fed。 此外， 还 可 以 使 
用 FEED_EXPORT_FIELDS 设置 ， 选 择 只 输出 指定 的 几 个 字段 。 该 设置 对 
于 有 具有 固定 标题 列 的 .csv 文件 尤其 有 用 。 最 后 ，FEED_URI_PARAMS 用 
于 定义 对 FEED_URI 中 任意 参数 进行 后 置 处 理 的 函数 。 


7.2.7 媒体 下 载 


Scrapy 可 以 使 用 图 像 管道 下 载 媒 体内 容 ， 此 外 还 可 以 将 图 像 转 换 为 
不 同 的 格式 、 生 成 给 略图 以 及 基于 大 小 过 滤 图 像 。 





IMAGES STORE 设置 用 于 设 定 图 像 存储 的 目录 〈 使 用 相对 路 径 时 ， 


将 会 在 项 目 根 目 录 下 创建 目录 ) 。 每 个 Item 的 图 像 URL 应 该 
naps urls 字段 中 设 定 〈 可 以 被 IMAGES_URLS_FIELD 设置 履 

， 而 下 载 图 像 的 文件 名 则 是 在 一 个 新 的 images 字段 中 设 定 〈 可 以 
ee WARS) 。 可 以 使 用 IMAGES_MIN_WNIDTH 
和 IMAGES_MIN_HEIGHT 设置 过 滤 过 小 的 图 像 。IMAGES_EXPIRES 决定 
了 图 像 在 过 期 前 保留 在 缓存 中 的 天 数 。 对 于 缩 略 图 的 生成 ， 可 以 使 
用 IMAGES_THUMBS 设置 ， 它 可 以 让 你 按照 一 种 或 多 种 尺寸 生成 缩 略 
图 。 比 如 ， 可 以 让 Scrapy 生 成 一 种 图 标 大 小 的 缩 略 图 以 及 一 种 用 于 每 次 
图 像 下 载 时 的 中 等 大 小 缩 略 图 。 





1. 其 他 媒体 


可 以 使 用 文件 管道 下 载 其 他 媒体 文件 。 与 图 像 类 似 ，FILES_STORE 
设置 用 于 确定 已 下 载 文件 的 存放 位 置 ， 而 FILES_EXPIRES 设置 用 于 确 
定 文件 保留 的 天 数 。FILES_URLS_FIELD 以 及 FILES_RESULT_FIELD 设 
置 都 和 对 应 的 IMAGES_* 设置 的 功能 相似 。 文 件 管道 和 图 像 管 道 可 以 同 
时 激活 ， 不 会 产生 冲突 。 


示例 3 一 一 下 载 图 像 





为 了 能 够 使 用 图 像 功 能 ， 必 须 使 用 sudo pip install image 安 
装 图 像 包 。 在 我 们 的 开发 机 中 ， 已 经 为 大 家 安装 好 该 三 方 包 了 。 想 要 局 
用 图 像 管道 ， 只 需要 编辑 项 目的 settings.py 文件 ， 添 加 少量 设置 。 
首先 ， 需 要 在 ITEM_PIPELINES 中 包 
含 scrapy.pipelines.images.ImagesPipeline 。 然 后 ， 
置 IMAGES_STORE 为 相对 路 径 "images" ， 此 外 还 可 以 选择 通过 
IMAGES_THUMBS 设置 一 些 缩 略 图 的 描述 ， 相 关 代 码 如 下 所 示 。 





ITEM_PIPELINES 


"scrapy.pipelines.images.ImagesPipeline': 1, 


} 
IMAGES_STORE “images' 


IMAGES THUMBS = { ‘small': (30, 30) } 





我 们 在 Item 中 已 经 包含 了 合适 的 image_urls 字段 ， 所 以 现在 可 以 
参照 如 下 命令 执行 仆 虫 了 。 





$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=96 


DEBUG: Scraped from 《266 http://http://web:9312/.../index_90003.htm1/ 


property_000001.htm1>{ 


‘image_urls': [u'http://web:9312/images/i02.jpg'], 


"images': [{'checksum': 'c5b29f4b223218e5b5beece79fe31510', 


"path': 'full/705a3112e67...a1f.jpg', 


‘url': 'http://web:9312/images/i02.jpg'}], 


$ tree images 


images 


— full 


| | 一 Qabf@72604df23b3be3ac51c9509999Fa92ea311. jpg 


| | 一 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 


L— thumbs 


L— small 


| 一 9abf672664df23b3be3ac51c9569999fa92ea311.Jjp8g 


— 1520131b5cc5f656bc683ddf5eab9b63e12c45b2.jpg 





可 以 看 到 图 像 成 功 下 载 ， 并 且 创 建 了 缩 略 网 。 主 文件 的 JPG 名 称 按 
照 预 期 存储 在 了 images 字段 当中 ， 因 此 很 容易 推测 缩 上 略图 的 路 符 。 如 
果 想 要 清空 图 人像， 我们 可 以 使 用 rm -rf images 。 


7.2.8 Amazon Web 服务 


Scrapy 对 访问 Amazon Web 服 务 有 内 置 文 持 。 你 可 以 在 AWSACCFESS 


KEY ID 设置 中 存储 AWS 访 问 密 钥 ， 在 AWS_SECRET_ACCESS_KEY 设 
置 中 存储 私密 密 钥 。 默 认 情 况 下 ， 这 些 设置 均 为 空 。 可 以 在 如 下 场景 中 
使 用 : 


e 当下 载 以 s3:// 开头 的 URL 时 “〔〈 而 不 是 https:/ 等 ) ; 
。 当 通 过 媒体 管道 使 用 s3:// 路 径 存储 文件 或 纵 略 网 时 ; 
e 当 在 s3:// 目录 中 存储 Item 的 输出 Feed 时 。 


不 要 将 这 些 设置 存储 在 settings.py 文件 当中 ， 以 防 未 来 某 天 由 
于 任何 原因 造成 代码 公开 时 被 泄露 。 


7.2.9 (EHRE 


Scrapy 的 HttpProxyMiddleware 组 件 允 许 你 使 用 代理 设置 ， 根 据 
UNIX 约 定 ， 这 些 设置 是 通过 http_proxy 、https_proxy 以 及 
no_proxy 这 几 个 环境 变量 定义 的 。 该 组 件 默 认 是 启用 状态 的 。 


示例 4 一 一 使 用 代理 和 Crawlera 的 智能 代理 


DynDNS 《或 任何 类 似 的 服务 ) 提供 了 一 个 免费 的 在 线 工 具 ， 用 于 
查看 当前 的 卫 地 址 。 使 用 Scrapy shell， 我 们 向 checkip.dyndns.org 发 
送 请 求 ， 查 看 响应 ， 获 取 当 前 的 卫 地 址 。 








$ scrapy shell http://checkip.dyndns.org 


>>> response. body 


"<html><head><title>Current IP Check</title></head><body>Current IP 


Address: XXX.XXX.XXX.xxx</body></htm1l>\r\n' 


>>> exit( ) 








想 要 开始 代理 请 求 ， 需 要 退出 shell， 并 使 用 export 命令 设置 新 的 
代理 。 可 以 通过 搜索 HMA 的 公开 代理 列表 测试 免费 代理 
(http://proxylist. hidemyass.com) 。 比 如 ， 我 们 从 该 列表 中 
选择 了 一 个 IP 为 10.10.1.1、 端 口 为 80 的 代理 〈 非 真实 存在 的 代理 ， 请 将 
其 蔡 换 为 你 自己 的 代理 地 址 ) ， 可 以 按照 如 下 操作 。 


$ # First check if you already use a proxy 


$ env | grep http_proxy 


$ # We should have nothing. Now let's set a proxy 


$ export http_proxy=http://10.10.1.1:80 





按照 刚才 的 步骤 重新 运行 scrapy shell， 可 以 看 到 执行 的 请 求 使 用 了 
不 同 的 IP。 此 外 ， 你 还 会 发 现 这 些 代 理 通常 速度 都 很 慢 ， 而 且 在 一 些 情 
况 下 无 法 成 功 ， 如 果 遇 到 这 类 情况 ， 可 以 尝试 更 换 为 其 他 的 代理 。 如 果 
想 要 禁用 代理 ， 则 需要 退出 Scrapy shell， 并 执行 unset http_proxy 
《或 恢复 为 之 前 的 值 ) 。 











Crawlera 是 Scrapinghub 的 一 项 服务 ， 可 以 为 Scrapy 的 开发 者 提供 一 
个 非常 智能 的 代理 。 除 了 在 后 台 使 用 很 大 的 IP 池 路 由 你 的 请 求 外 ， 该 代 
理 还 会 调整 延迟 和 失败 重 试 ， 让 你 在 保持 尽 可 能 快 的 情况 下 ， 获 得 尽 可 
能 多 且 稳 定 的 成 功 响 应 流 。 它 基本 上 可 以 使 肘 虫 开发 者 的 梦想 成 真 ， 并 
且 只 需 像 之 前 那样 ， 设 置 http_proxy 环境 变量 ， 就 可 以 使 用 。 





$ export http_proxy=myusername:mypassword@proxy.crawlera. com: 8010 





除了 HTTP 代 理 外 ，Crawlera 还 可 以 通过 Scrapy 的 中 间 件 组 件 方式 使 
用 。 


73 JERKS 
现在 ， 我 们 要 探讨 一 些 Scrapy 中 不 太 常 见 的 方面 ， 以 及 Scrapy 扩 展 


的 相关 设置 ， 后 续 章节 中 会 详细 介绍 这 些 内 容 。 这 些 进 阶 设置 如 图 7.2 
所 示 。 
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图 7.2”Scrapy 进 阶 设 置 


7.3.1 项 目 相 关 设 置 


在 这 里 可 以 找到 一 些 与 具体 项 目 相关 的 管理 设置 ， 如 BOT_NAME 
、SPIDER_MODULES 等 。 你 可 以 快速 浏览 一 下 这 些 设置 的 文档 ， 因 为 它 
们 会 提升 具体 用 例 的 生产 效率 ， 不 过 通常 情况 下 ，Scrapy 的 
startproject 和 genspider 命令 都 已 经 提供 了 合理 的 默认 值 ， 即 使 不 
显 式 修改 它们 ， 也 能 很 好 地 运行 。 邮 件 相关 的 设置 ， 比 如 MAIL_FROM ， 





可 以 让 你 配置 Mailsender 类 ， 该 类 目前 用 于 统计 邮件 信息 《另外 参见 
STATSMAILER_RCPTS ) 以 及 内 存 使 用 信息 《另外 参见 
MEMUSAGE_NOTIFY_MAIL ) 。 还 有 两 个 环境 变 

量 : SCRAPY_SETTINGS MODULE 以 及 SCRAPY_PROJECT ， 可 以 让 你 调 
整 Scrapy 项 目 与 其 他 项 目 集 成 的 方式 ， 比 如 Django 项 目 。scrapy.cfg 


还 允许 你 调整 设置 模块 的 名 称 。 
7.3.2 ”Scrapy 扩 展 设置 


这 些 设置 能 够 让 你 扩展 并 修改 Scrapy 的 几乎 所 有 方面 。 这 些 设置 中 
最 重要 的 当 属 ITEM_PIPELINES 。 它 可 以 让 你 在 项 目 中 使 用 Item 处 理 管 
道 。 第 9 章 会 看 到 更 多 的 例子 。 除 了 管道 之 外 ， 还 可 以 通过 不 同 的 方式 
扩展 Scrapy， 其 中 一 些 将 会 在 第 8 章 中 进行 总 结 。COMMANDS_MODULE fù 
许 我 们 添加 常用 命令 。 比 如 ， 可 以 在 properties/hi.py 文件 中 添加 如 
下 内 容 。 











from scrapy.commands import ScrapyCommand 
class Command(ScrapyCommand): 
default_settings = {'LOG ENABLED': False} 


def run(self, args, opts): 
print("hello") 





当 在 settings.py 文件 中 添 
加 COMMANDS_MODULE= 'properties.hi' 时 ， 就 激活 了 这 个 小 命令 ， 
我 们 可 以 在 Scrapy 帮 助 中 看 到 它 ， 并 且 通 过 scrapy hi 运行 。 在 命令 的 
default_settings 中 定义 的 设置 ， 会 被 合并 到 项 目的 设置 当中 ， 并 履 
盖 默 认 值 ， 不 过 其 优先 级 低 于 settings.py 文件 或 命令 行 中 设 定 的 设 
置 。 








Scrapy 使 用 -_BASE 字典 〈 比 如 FEED_EXPORTERS_BASE ) 存储 不 同 
框架 扩展 的 默认 值 ， 并 允许 我 们 在 settings .py 文件 或 命令 行 中 ， 通 
过 设置 它们 的 非 -_BASE 版 本 (比如 FEED_EXPORTERS ) 进行 自 定 义 。 


最 后 ，Scrapy 使 用 DONNLOADER 、SCHEDULER 等 设置 ， 保 存 系统 基 
本 组 件 的 包 / 类 名 。 我 们 可 以 继承 默认 的 下 载 器 
(scrapy.core.downloader.Downloader ) ， 重 载 一 些 方法 ， 然 后 
将 DONNLOADER 设置 为 自 定义 的 类 。 这 样 可 以 让 开发 者 大 胆 地 对 新 特性 
进行 实验 ， 并 且 可 以 简化 自动 化 测试 过 程 ， 不 过 除非 你 明确 了 解 自己 做 
的 事情 ， 人 否则 不 要 轻易 修改 这 些 设置 。 





7.3.3 ”下载 调 优 


RETRY_* 、REDIRECT_* 以 及 METAREFRESH_* 设置 分 别 用 于 配置 
重 试 、 重 定向 以 及 元 刷新 中 间 件 。 例 如 ， 
将 REDIRECT_PRIORITY_ADJUST 设 为 2， 意 味 着 每 次 发 生 重 定向 时 ， 新 
请 求 将 会 在 所 有 非 重 定向 请 求 完 成 服务 后 才 会 被 调度 ; 而 
将 REDIRECT_MAX_TIMES 设置 为 20， 则 表示 在 执行 20 次 重 定向 后 ， 下 载 
器 将 会 放弃 尝试 ， 并 返回 目前 所 见 到 的 内 容 。 这 些 设置 在 仆 取 一 些 运行 
不 太 正 常 的 网 站 时 非常 有 用 ， 不 过 在 大 多 数 情况 下 ， 默 认 值 已 经 可 以 提 
供 很 好 的 服务 了 。 它 同样 也 适用 于 HTTPERROR_ALLOWED_CODES 以 及 
URLLENGTH_LIMIT 。 

















7.3.4” 目 动 限 速 扩展 设置 


AUTOTHROTTLE_* 设置 用 于 局 用 并 配置 自动 限 速 扩展 。 虽 然 对 它 有 
很 大 期 望 ， 但 从 实践 来 看 ， 我 发 现 它 往往 有 些 保 守 ， 不 容易 调整 。 它 使 


用 下 载 延 壕 ， 来 了 解 我 们 和 目标 服务 器 的 猴 载 情况 ， 并 据 此 调整 下 载 器 
的 延迟 。 如 果 你 很 难 找到 DONNLOAD_DELAY 的 最 佳 值 ( 默 认为 0; ， 就 
会 发 现 该 模块 很 有 用 。 


7.3.5 ”内 存 使 用 扩展 设置 


MEMUSAGE_* 设置 用 于 启用 并 配置 内 存 使 用 扩展 。 当 超出 内 存 限制 
时 ， 将 会 关闭 爬虫 。 当 运行 在 共享 环境 时 ， 该 设置 非常 有 用 ， 因 为 此 时 
需要 非常 礼貌 的 行为 。 大 多 数 情况 下 ， 你 可 能 会 发 现 它 只 有 在 接收 报警 
邮件 时 才 会 有 用 ， 此 时 我 们 需要 将 MEMUSAGE_LIMIT_MB 设置 为 0， 禁 用 
关闭 不 虫 的 功能 。 该 扩展 只 在 类 UNIX 平 台 上 适用 。 











MEMDEBUG_ENABLED 和 MEMDEBUG_NOTIFY 用 于 启用 并 配置 内 存 调 
试 扩展 ， 在 讨 虫 关闭 时 打印 出 仍然 存活 的 引用 数量 。 总 之 ， 退 踪 内 存 泄 
露 不 是 一 件 简 单 而 有 趣 的 事情 〈 好 吧 ， 它 还 是 有 一 些 乐 趣 的 ) 。 我 们 可 
以 阅读 Debugging memory leaks with trackref 这 篇 优秀 的 文档 ， 了 人 解 更 多 
内 存 泄露 排查 的 方法 ， 不 过 最 重要 的 建议 是 ， 保 持 你 的 爬虫 相对 简短 、 
批量 处 理 ， 并 且 需 要 根据 服务 器 的 能 力 运 行 。 我 认为 没有 什么 好 的 理由 
可 以 让 我 们 批量 运行 超过 几 千 页 或 几 分钟 。 


7.3.6 日 志和 调试 


最 后 ， 还 有 一 些 日 志和 调试 功能 。L0G_ENCODING 
、L0G_DATEFORMAT 和 LOG_FORMAT 可 以 用 来 调整 日 志 格 式 ， 当 准备 使 
用 日 志 管理 解决 方案 时 〈 比 如 Splunk、Logstash 和 Kibana) ， 会 发 现 这 
些 设置 非常 有 用 。DUPEFILTER_DEBUG 和 COOKIES DEBUG 将 会 帮助 你 
调试 相对 复杂 的 情况 ， 比 如 得 到 的 请 求 数 少 于 预期 或 会 话 意外 丢失 。 





7.4 ”本 章 小 结 


通过 阅读 本 章 ， 我 相信 和 与 从 头 开 始 编写 爬虫 相 比 ， 你 能 体会 到 使 用 
Scrapy 功 能 所 市 来 的 深度 和 广度 。 如 果 你 想 调整 或 扩展 Scrapy 的 功能 ， 
可 以 有 很 多 选项 ， 我 们 将 会 在 下 一 章 中 看 到 它们 。 


第 8 章 ”Scrapy 编 程 





到 目前 为 上 ， 我 们 编写 的 爬虫 主要 用 于 定义 不 取 数 据 源 的 方式 以 及 
如 何 从 中 抽取 信息 。 除 了 扑 虫 外 ，Scrapy 还 提供 了 能 够 调整 其 大 多 数 方 
面 功能 的 机 制 。 比 如 ， 你 可 能 会 发 现 自己 经 常 在 处 理 如 下 的 一 些 问题 。 


1. 你 需要 从 同一 个 项 目的 其 他 不 虫 中 复制 、 粘 贴 大 量 人 代码。 重复 
的 代码 与 数据 更 加 相关 《〈 比 如， 执行 字段 计算 ) ， 而 不 是 数据 源 。 


2. 你 需要 编写 脚本 ， 对 Item 进行 后 处 理 ， 执 行 像 删 除 重复 条 目 或 
后 置 处 理 值 的 事情 。 





3. 你 在 不 同 的 项 目 中 有 重复 的 代码 ， 用 于 处 理 基 础 架构 。 比 如 ， 
你 可 能 需要 登录 并 向 专 有 仓库 传输 文件 ， 同 数据 库 中 添加 Item RENE 
虫 执 行 完成 时 触发 后 置 处 理 操作 。 

















4. 你 发 现 Scrapy 的 某 个 方面 与 你 希望 的 功能 并 不 完全 一 致 ， 你 想 
在 自己 的 大 部 分 项 目 中 使 用 自 定 义 或 变通 的 方案 。 


Scrapy 开 发 者 所 设计 的 架构 ， 能 够 为 我 们 解决 这 些 常 见 的 问题 。 我 
们 将 会 在 本 章 后 续 部 分 研究 该 架构 。 不 过 我 们 首先 介绍 支持 Scrapy 的 引 
擎 ， 该 引擎 叫 作 Twisted 。 


8.1 Scrapy 是 一 个 Twisted 应 用 


Scrapy 是 一 个 内 置 使 用 了 Python 的 Twisted 框 架 的 抓 取 应 用 。Twisted 
确实 有 些 与 众 不 同 ， 因 为 它 是 事件 驱动 的 ， 并 且 辟 励 我 们 编写 异步 代 
码 。 习 惯 它 需要 一 些 时 间 ， 不 过 我 们 将 通过 只 学 习 和 Scrapy 有 关 的 部 
分 ， 从 而 让 任务 变 得 相对 简单 一 些 。 我 们 还 可 以 在 错误 处 理 方 面 轻松 一 
些 。GitHub 上 的 完整 代码 会 有 更 加 彻底 的 错误 处 理 ， 不 过 在 本 书 中 将 名 
略 该 部 分 。 








让 我 们 从 头 开 始 。Twisted 与 众 不 同 是 因为 它 的 主要 口号 。 


在 任何 情况 下 ， 都 不 要 编写 阻塞 的 代码 。 









































代码 阻 豆 的 影响 很 严重 ， 而 可 能 造成 代码 阻塞 的 原因 包括 : 


。 代码 需要 访问 文件 、 数 据 库 或 网 络 ; 
。 代码 需要 派生 新 进程 并 消费 其 输出 ， 比 如 运行 shell 命 令 ; 
。 代码 需要 执行 系统 级 操作 ， 比 如 等 竺 系统 队列 。 


Twisted 提 供 的 方法 允许 我 们 执行 上 述 所 有 操作 甚至 更 多 操作 时 ， 
无 需 再 阻塞 代码 执行 。 


为 了 展示 两 种 方式 的 不 同 ， 我 们 假设 有 一 个 典型 的 同步 抓 取 应 用 
〈 见 图 8.1)》 。 假 设 该 应 用 包含 4 个 线程 ， 并 且 在 一 个 给 定 的 时 刻 ， 其 中 
3 个 线程 处 于 阻塞 状态 ， 用 于 等 待 啊 应 ， 而 兄 一 个 线程 被 阻塞 ， 用 于 执 
行 数据 库 写 访问 以 保存 Item 。 在 任何 给 定时 刻 ， 很 有 可 能 无 法 找到 抓 








取 应 用 的 一 个 执行 其 他 事情 的 线程 ， 只 能 等 竺 一 些 阻塞 操作 完成 。 当 阻 
穴 操 作 完成 时 ， 一 些 计算 操作 可 能 占用 几 微 秒 ， 然 后 线程 再 次 极 阻 竖 ， 
执行 其 他 阻 蹇 操作 ， 这 很 可 能 持续 至 少 几 昌 秒 的 时 间 。 总 体 来 说 ， 服 务 
右 不 会 是 空间 的， 因为 它 运 行 了 几 十 个 应 用 程序 ， 并 使 用 了 上 干 个 线 

程 ， 因 此 ， 在 一 些 细致 的 调 优 后 ，CPU 才 能 够 合理 利用 。 








多 线程 (4 线程 ) : 


_~ 线程 1: 在 Web 请 求 妇 30 上 被 阳 塞 
线程 2: 在 数据 库 访问 #70 上 被 阻塞 


gi 线程 3: 在 Web 请 求 #330 上 被 阻塞 
oa 

y 线程 4: 在 Web 请 求 妇 12 上 被 阻塞 
tee ae 


Twisted (1 线程 ) : 
yP 线程 1: 被 阻塞 ， 等 待 资源 变 为 可 用 的 
一 一 一 一 








图 8.1 多 线程 代码 和 Twisted 异 步 代码 的 对 比 


Twisted/Scrapy 的 方式 更 倾 回 于 尽 可 能 使 用 单线 程 。 它 使 用 现代 操 
作 系 统 的 1/O 复 用 功能 (参见 select() 、pol1() 和 epol1() ) 作为 “ 挂 
起 器 ”。 在 通常 会 有 阻塞 操作 的 地 方 ， 比 如 result = i_block()， 
Twisted 提 供 了 一 个 可 以 立即 返回 的 替代 实现 。 不 过 ， 它 并 不 是 返回 真 
实 值 ， 而 是 返回 一 个 hook， 比 如 deferred = i_dont_block(), ， 在 这 





里 可 以 挂 起 任何 想 要 运行 的 功能 ， 而 不 用 管 什 么 时 候 返 回 值 可 用 〈 比 
如 ，deferred.addCallback(process_result) ) . —~TwistedhY 
用 是 由 一 组 此 类 延迟 运行 的 操作 组 成 的 。Twisted 唯 一 的 主线 程 被 称 为 
Twisted 事 件 反 应 器 线程 ， 用 于 监控 挂 起 器 ， 等 竺 某 个 资源 变 为 可 用 
(比如 ， 服 务 器 返回 响应 到 我 们 的 Request 中 ) 。 当 该 事件 发 生 时 ， 将 
会 触发 链 中 最 前 面 的 延迟 操作 ， 执 行 一 些 计 算 ， 然 后 依次 触发 下 面 的 操 
作 。 部 分 延迟 操作 可 能 会 引发 进一步 的 IO 操作 ， 这 样 就 会 造成 延迟 操 
作 链 回 到 挂 起 器 中 ， 如 果 可 能 的 话 ， 还 会 释放 CPU 以 执行 其 他 功能 。 由 
于 我 们 使 用 的 是 单线 程 ， 因 此 不 会 存在 额外 线程 所 需 的 上 下 文 切 换 以 及 
保存 资源 (如 内 存 〉， 所 带 来 的 开销 。 也 就 是 说 ， 我 们 使 用 该 非 阻 窄 架构 
时 ， 只 需 一 个 线程 ， 束 能 达到 类 似 使 用 数 干 个 线程 才能 达到 的 性 能 。 


坦率 地 说 ， 操 作 系 统 开 发 人 员 花 费 了 数 十 年 的 时 间 优 化 线程 操作 ， 
以 使 它们 速度 更 快 。 性 能 的 争论 没有 以 前 那么 强烈 了 。 有 一 件 大 家 都 认 
同 的 事情 是 ， 为 复杂 应 用 编写 正确 的 线程 安全 代码 非常 困难 。 当 你 克服 
考虑 延迟 /回调 所 带 来 的 最 初 冲 击 后 ， 会 发 现 Twisted 代 码 要 比 多 线程 代 
人 码 简 单 得 多 。inlineCallbacks 生成 器 工具 使 得 代码 更 加 简单 ， 我 们 


将 会 在 后 续 章节 进一步 讨论 它 。 














可 以 说 ， 到 目前 为 止 ， 最 成 功 的 非 阻 塞 /O 系 统 是 Node.js， 主 要 是 因为 























它 以 高 性 能 和 并 发 性 作为 出 发 点 ， 没 有 人 去 争论 这 是 好 事 还 是 坏事 。 每 个 
Node.js 应 用 都 只 用 非 阻 塞 API。 在 Java 的 世界 里 ，Netty 可 能 是 最 成 功 的 NIO 
框架 驱动 应 用 ， 比 如 Apache Storm 和 Spark。C++ 11 的 std: :future 和 
std::promise (与 延迟 操作 非常 类 似 ) 通过 使 用 libevent 或 纯 POSIX 这 些 
库 ， 使 得 编写 异步 代码 更 加 简单 。 






























































| 
8.1.1 延迟 和 延迟 链 
延迟 机 制 是 Twisted 提 供 的 最 基础 的 机 制 ， 能 够 帮助 我 们 编写 异步 


代码 。Twisted API 使 用 延迟 机 制 ， 多 许 我 们 定义 发 生 东 些 事件 时 所 采取 
的 动作 序列 。 下 面 让 我 们 具体 看 一 下 。 


A 
你 可 以 从 GitHub 上 获取 本 书 的 全 部 源 代码 。 如 果 想 要 下 载 本 书 代 码 ， 可 
以 使 用 git clone https://github.com/ scalingexcellence/scrapybook 





本 章 的 完整 代码 在 che8 目录 中 ， 其 中 本 示例 的 代码 
在 che8/deferreds.py 文件 中 ， 你 可 以 使 用 ./deferreds.py 8 运行 该 代 
码 。 





可 以 使 用 Python 控 制 台 运行 如 下 的 交互 式 实验 。 





$ python 


>>> from twisted.internet import defer 


>>> # Experiment 1 


>>> d = defer.Deferred() 


>>> d.called 


False 


>>> d.callback(3) 


>>> d.called 


True 


>>> d.result 








可 以 看 到 ，Deferred 本 质 上 代表 的 是 一 个 无 法 立即 获取 的 值 。 当 
触发 d 时 (调用 其 callback 方法 ) ， 其 called 状态 变 为 True ， 
而 result 属性 被 设置 为 在 回调 方法 中 设 定 的 值 。 





>>> # Experiment 2 


>>> d = defer.Deferred() 


>>> def foo(v): 


print "foo called" 


return v+1 


>>> d.addCallback(foo) 


<Deferred at Ox7f...> 


>>> d.called 


False 


>>> d.callback(3) 


foo called 


>>> d.called 


True 


>>> d.result 





延迟 机 制 最 强大 的 功能 就 是 可 以 在 设 定 值 时 串联 其 他 要 被 调用 的 操 
作 。 在 上 面 的 例子 中 ， 添 加 了 一 个 foo() 函数 作为 d 的 回调 函数 。 当 通 
过 调用 callback(3) 触发 d 时 ， 会 调用 函数 foo() ， 打 印 消 息 ， 并 将 其 
返回 值 设 为 d 最 终 的 result 值 。 





>>> # Experiment 3 


>>> def status(*ds): 


return [(getattr(d, ‘result’, "N/A"), len(d.callbacks)) for d in 


ds] 


>>> def b_callback(arg): 


print "b_callback called with arg =", arg 
return b 
>>> def on_done(arg): 


print "on_done called with arg =", arg 


return arg 


>>> # Experiment 3.a 


>>> a = defer.Deferred() 


>>> b 


defer .Deferred() 


>>> a.addCallback(b_callback).addCallback(on_done) 


>>> status(a, b) 


[C'N/A', 2), ('N/A', @)] 


>>> a.callback(3) 


b_callback called with arg = 3 


>>> status(a, b) 


[(<Deferred at @x10e7209e@>, 1), ('N/A', 1)] 


>>> b.callback(4) 


on_done called with arg = 4 


>>> status(a, b) 


[(4, ©), (None, @)] 








该 示例 展示 了 更 加 复杂 的 延迟 行为 。 我 们 看 到 该 示例 中 有 一 个 普通 
的 延 运 a ， 和 之 前 例子 中 创建 的 一 样 ， 不 过 这 次 它 有 两 个 回调 方法 。 第 





一 个 是 bp_callback() ， 返 回 值 是 另 一 个 延迟 b ， 而 不 是 一 个 值 。 第 二 
个 是 on_done() 打印 函数 。 我 们 还 有 一 个 status() 函数 ， 用 于 打印 延 
述 状态 。 在 两 个 延 oe alice ah 得 到 了 相同 的 状态 : [C'N/A', 
('N/A'，8)] ， 这 意味 着 两 个 延迟 都 还 没有 被 触发 ， 并 且 第 一 个 
迟 有 两 个 回调 ， 而 第 二 个 没有 回调 。 然 后 ， 当 触发 第 一 个 延迟 时 ， 我 
en od at @x10e7209e0>, 1), ('N/A', 
1)] 状态 ， 可 以 看 出 现在 a 的 值 是 一 个 延迟 《实际 上 就 是 p 延迟 ) , FF 
且 目 前 它 还 有 一 个 回调 ， 这 种 情况 是 合理 的 ， 因 为 b callback() 已 经 
被 调用 ， 只 剩 下 了 on_done() 。 意 外 的 情况 是 现在 b 也 包含 了 一 个 回 


调 。 实 际 上 是 在 后 台 注 册 了 一 个 回调 ， 一 旦 触发 bp ， 就 会 更 新 它 的 值 。 
当 其 发 生 时 ，on_done() 依然 会 被 调用 ， 并 且 最 终 状 态 会 是 [(4，6)， 
(None，68)] ， 和 我 们 预期 的 一 样 。 





>>> # Experiment 3.b 


>>> a = defer.Deferred() 


>>> b = defer.Deferred() 


>>> a.addCallback(b_callback).addCallback(on_done) 


>>> status(a, b) 


[C'N/A', 2), ('N/A', @)] 


>>> b.callback(4) 


>>> status(a, b) 


[('N/A', 2), (4, @)] 


>>> a.callback(3) 


b_callback called with arg = 3 


on_done called with arg = 4 


>>> status(a, b) 


[(4，6)，(None，6)] 





而 另 一 方面 ， 如 果 像 Experiment3 .b 所 示 ，b 先 于 a 被 触发 ， 状 态 将 
会 变 为 [('NMA' ，2)，(4，68)] ， 然 后 当 a 被 触发 时 ， 两 个 回调 都 会 被 
调用 ， 最 终 状态 与 之 前 一 样 。 有 意思 的 是 ， 不 管 顺序 如 何 ， 最 终结 果 都 





征 相同 的 。 两 个 例子 唯一 的 不 同 是 ， 在 第 一 个 例子 中 ，b 值 保 持 延 迟 的 
时 间 更 长 一 些 ， 因 为 它 是 第 二 个 被 触及 的 ， 而 在 第 二 个 例子 中 ，b 首先 
被 触及 ， 并 且 从 该 时 刻 起 ， 它 的 值 就 会 在 需要 时 被 立即 使 用 。 











此 时 ， 你 应 该 已 经 对 什么 是 延迟、 它们 是 如 何 串 联 起 来 表示 尚 不 可 
用 的 值 ， 有 了 不 错 的 理解 。 我 们 将 通过 第 4 个 例子 结束 这 一 部 分 的 研 
究 ， 在 该 示例 中 ， 将 展示 如 何 触发 依赖 于 多 个 其 他 延 运 的 方法 。 在 
Twisted 的 实现 中 ， 将 会 使 用 defer.DeferredList 类 。 








>>> # Experiment 4 

>>> deferreds = [defer.Deferred() for i in xrange(5)] 
>>> join = defer.DeferredList(deferreds) 

>>> join.addCallback(on_done) 

>>> for i in xrange(4): 


deferreds[i].callback(i) 


>>> deferreds[4].callback(4) 


on_done called with arg = [(True, ©), (True, 1), (True, 2), 


(True, 3), (True, 4)] 





可 以 注意 到 ， 尽 管 for 循环 语句 只 触发 了 5 个 延迟 中 的 4 
个 ，on_done() 仍然 需要 等 到 列表 中 所 有 延迟 都 被 触发 后 才 会 调用 ， 也 
就 是 说 ， 要 在 最 后 的 deferreds[4].callback() 之 后 调 
用 。on_done() 的 参数 是 一 个 元 组 组 成 的 列表 ， 每 个 元 组 对 应 一 个 延 
迟 ， 其 中 包含 两 个 元 素 ， 分 别 是 表示 成 功 的 True 或 表示 失败 的 False 
， 以 及 延迟 的 值 。 


8.1.2 ”理解 Twisted 和 非 阻塞 IO 一 一 一 个 Python 故事 





既然 我 们 已 经 掌握 了 原 语 ， 接 下 来 让 我 告诉 你 一 个 Python 的 小 故 
事 。 该 故事 中 所 有 人 物 均 为 虚构 ， 如 有 雷同 纯 属 巧合 。 








# ~*~ Twisted - A Python tale ~*~ 


from time import sleep 


# Hello, I'm a developer and I mainly setup Wordpress. 
def install wordpress(customer): 
# Our hosting company Threads Ltd. is bad. I start installation and... 
print "Start installation for", customer 
# ...then wait till the installation finishes successfully. It is 
# boring and I'm spending most of my time waiting while consuming 
# resources (memory and some CPU cycles). It's because the process 
# is *blocking*. 
sleep(3) 
print "All done for", customer 


# I do this all day long for our customers 
def developer_day(customers): 
for customer in customers: 
install _wordpress(customer ) 


developer_day(["Bill", "Elon", "Steve", "Mark"]) 





运行 该 代码 。 


$ ./deferreds.py 1 

Running example 1 
Start installation for Bill 
All done for Bill 
Start installation 


* Elapsed time: 12.03 seconds 
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要 12 秒 的 时 间 。 这 种 方式 的 扩展 性 不 是 很 好 ， 因 此 我 们 将 在 第 二 个 例子 
中 添加 多 线程 。 











import threading 


# The company grew. We now have many customers and I can't handle 


the 
# workload. We are now 5 developers doing exactly the same thing. 
def developers _day(customers): 


# But we now have to synchronize... a.k.a. bureaucracy 
lock = threading.Lock() 
# 


def dev_day(id): 
print "Goodmorning from developer", id 
# Yuck - I hate locks... 
lock.acquire() 
while customers: 
customer = customers.pop(@) 
lock.release() 
# My Python is less readable 
install _wordpress(customer ) 


lock.acquire() 

lock.release() 

print "Bye from developer", id 
# We go to work in the morning 
devs = [threading.Thread(target=dev_day, args=(i,)) for i in 

range(5)] 

[dev.start() for dev in devs] 
# We leave for the evening 
[dev.join() for dev in devs] 


# We now get more done in the same time but our dev process got more 

# complex. As we grew we spend more time managing queues than doing dev 
# work. We even had occasional deadlocks when processes got extremely 

# complex. The fact is that we are still mostly pressing buttons and 

# waiting but now we also spend some time in meetings. 
developers_day(["Customer %d" % i for i in xrange(15)]) 





— 5 


按照 下 述 方式 运行 这 段 代码 。 





Goodmorning from developer 6Goodmorning from developer 


1Start installation forGoodmorning from developer 2 


Goodmorning from developer 3Customer 6 


from developerCustomer 13 3Bye from developer 2 


* Elapsed time: 9.02 seconds 


[L CR 


在 这 段 代 码 中 ， 使 用 了 5 个 线程 并 行 执 行 。15 个 客户 ， 每 人 3 秒 ， 总 
共 需 要 执行 45 秒 ， 而 当 使 用 5 个 并 行 的 线程 时 ， 最 终 只 花费 了 9 秒 钟 。 不 
过 代码 有 些 难 看 。 现 在 代码 的 一 部 分 只 用 于 管理 并 发 性 ， 而 不 是 专注 于 
算法 或 业务 逻辑 。 男 外 ， 输 出 也 变 得 混乱 并 且 可 读 性 很 差 。 即 使 是 让 很 





简单 的 多 线程 代码 正确 运行 ， 也 有 很 大 难度 ， 因 此 我 们 将 转 为 使 用 


Twisted. 





# For years we thought this was all there was... We kept hiring more 
# developers, more managers and buying servers. We were trying harder 
# optimising processes and fire-fighting while getting mediocre 

# performance in return. Till luckily one day our hosting 

# company decided to increase their fees and we decided to 

# switch to Twisted Ltd.! 


from twisted.internet import reactor 
from twisted.internet import defer 
from twisted.internet import task 


# Twisted has a slightly different approach 
def schedule_install(customer): 
# They are calling us back when a Wordpress installation completes. 
# They connected the caller recognition system with our CRM and 
# we know exactly what a call is about and what has to be done 
# next. 
# 
# We now design processes of what has to happen on certain events. 
def schedule _install_wordpress(): 
def on_done(): 
print "Callback: Finished installation for", customer 
print "Scheduling: Installation for", customer 
return task.deferLater(reactor, 3, on_done) 
# 
def all _done(_): 
print "All done for", customer 


# 

# For each customer, we schedule these processes on the CRM 
# and that 

# is all our chief-Twisted developer has to do 

d = schedule _install_wordpress() 

d.addCallback(all_done) 


# 
return d 


# Yes, we don't need many developers anymore or any synchronization. 
# ~~ Super-powered Twisted developer ~~ 
def twisted_developer_day(customers): 
print "Goodmorning from Twisted developer" 
# 
# Here's what has to be done today 
work = [schedule_install(customer) for customer in customers] 
# Turn off the lights when done 
join = defer.DeferredList (work) 
join.addCallback(lambda _: reactor.stop()) 
# 
print "Bye from Twisted developer!" 
# Even his day is particularly short! 
twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 


# Reactor, our secretary uses the CRM and follows-up on events! 
reactor.run() 





现在 运行 该 代码 。 





$ ./deferreds.py 3 


Goodmorning from Twisted developer 


Scheduling: Installation for Customer 6 


Scheduling: Installation for Customer 14 


Bye from Twisted developer! 


Callback: Finished installation for Customer 6 


All done for Customer @ 


Callback: Finished installation for Customer 1 


All done for Customer 1 


All done for Customer 14 


* Elapsed time: 3.18 seconds 
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码 ， 以 及 漂亮 的 输出 结果 。 我 们 并 行 处 理 了 所 有 的 15 位 客户 ， 也 就 是 
说 ， 应 当 执 行 45 秒 的 计算 只 花费 了 3 秒 钟 ! 技巧 就 是 将 所 有 阻塞 调用 的 
sleep() 替换 为 Twisted 对 应 的 task.deferLater() 以 及 回调 函数 。 由 





于 处 理 现 在 发 生 在 其 他 地 方 ， 因 此 可 以 坚 不 费 力 地 同时 为 15 位 客户 服 
务 。 





刚才 提 到 前 面 的 处 理 此 时 是 在 其 他 地 方 执行 的 。 这 是 在 作 浆 吗 ? 答案 当 



































Fi 


然 不 是 。 算 法 计算 仍然 在 CPU 中 处 理 ， 不 过 与 磁盘 和 网 络 操作 相 比 ，CPU 操 
作 速 度 很 快 。 因 此 ， 将 数据 传 给 CPU、 从 一 个 CPU 发 送 或 存储 数据 到 另 一 个 
CPU 中 ， 占 据 了 大 部 分 时 间 。 我 们 使 用 非 阻塞 的 MO 操作 ， 为 CPU 省 了 这 




















些 时 间 。 这 些 操 作 ， 尤 其 是 像 task.deferLater() 这 样 的 操作 ， 会 在 数据 





传输 完成 后 触发 回调 函数 。 





另 一 个 需要 非 党 注意 的 地 方 是 Goodmorning from Twisted 
developer 以 及 Bye from Twisted developer! 消息 。 在 代码 启动 
时 ， 它 们 就 都 被 立即 打印 了 出 来 。 如 果 代 码 过 早 地 到 达 该 点 ， 那 么 应 用 
实际 是 什么 时 候 运 行 的 昵 ? 答案 是 Twisted 应 用 〈 包 括 Scrapy) 完全 运行 
在 reactor.run() E! 当 调 用 该 方法 时 ， 必 须 拥 有 应 用 程序 预期 使 用 
的 所 有 可 能 的 延迟 链 《〈 相 当 于 前 面 故 事 中 建立 CRM 系 统 的 步骤 和 流 
FE) 。 你 的 reactor.run() (故事 中 的 秘书 ) 执行 事件 监控 以 及 触发 
回调 。 


reactor 的 主要 规则 是 : 只 要 是 快速 的 非 阻塞 操作 就 可 以 做 任何 事 。 








非常 好 ! 不 过 虽然 代码 没有 了 多 线程 时 的 混乱 输出 ， 但 是 这 里 的 回 
调 函 数 还 是 有 一 些 难 看 ! 因此 ， 我 们 将 引入 下 一 个 例子 。 





# Twisted gave us utilities that make our code way more readable! 
@defer.inlineCallbacks 
def inline install(customer): 

print "Scheduling: Installation for", customer 

yield task.deferLater(reactor, 3, lambda: None) 

print "Callback: Finished installation for", customer 

print "All done for", customer 


def twisted_developer_day(customers): 
. same as previously but using inline_install() 
instead of schedule _install() 


twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 





以 如 下 方式 运行 该 代码 。 


$ ./deferreds.py 4 


.. exactly the same as before 





上 述 代 码 和 之 前 那个 版 本 的 代码 看 起 来 基本 一 样 ， 不 过 更 加 优 
雅 。inlineCallbacks 生成 嘉 使 用 了 一 些 Python 机 制 让 
inline_install() 的 代码 能 够 暂停 和 恢复 。inline_install() 变 为 
延迟 函数 ， 并 且 为 每 位 客户 并 行 执行 。 每 当 执 行 yield 时 ， 执 行 会 在 当 
前 的 ijnline_install() 实例 上 暂停 ， 当 yield 的 延迟 函数 触发 时 再 恢 
复 。 








现在 唯一 的 问题 是 ， 如 果 不 是 只 有 15 个 客户 ， 而 是 10000 个 ， 该 代 
码 会 无 耻 地 同时 启动 10000 个 处 理 序 列 ( 调 用 HTTP 请 求 、 数 据 库 写 操作 
等 ) 。 这 样 可 能 会 正常 运行 ， 也 可 能 造成 各 种 各 样 的 失败 。 在 大 规模 并 
发 应 用 中 ， 比 如 Scrapy， 一 般 需 要 将 并 发 量 限 制 到 可 接受 的 水 平 。 在 本 
例 中 ， 可 以 使 用 task.Cooperator() 实现 该 限制 。Scrapy 使 用 了 同样 
的 机 制 在 item 处 理 管道 中 限制 并 发 量 (CONCURRENT_ITEMS 设置 ) 。 








@defer.inlineCallbacks 
def inline install(customer): 
.. Same as above 


# The new "problem" is that we have to manage all this concurrency to 
# avoid causing problems to others, but this is a nice problem to have. 
def twisted_developer_day(customers): 

print "Goodmorning from Twisted developer" 

work = (inline_install(customer) for customer in customers) 

# 

# We use the Cooperator mechanism to make the secretary not 

# service more than 5 customers simultaneously. 

coop = task.Cooperator() 

join = defer.DeferredList([coop.coiterate(work) for i in xrange(5)]) 

# 

join.addCallback(lambda _: reactor.stop()) 

print "Bye from Twisted developer!" 


twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 


# We are now more lean than ever, our customers happy, our hosting 
# bills ridiculously low and our performance stellar. 


# ~*~ THE END ~*~ 





运行 该 代码 。 





$ ./deferreds.py 5 


Goodmorning from Twisted developer 


Bye from Twisted developer! 


Scheduling: Installation for Customer 6 


Callback: Finished installation for Customer 4 


All done for Customer 4 


Scheduling: Installation for Customer 5 


Callback: Finished installation for Customer 14 


All done for Customer 14 


* Elapsed time: 9.19 seconds 





可 以 看 到 ， 现 在 有 类 似 于 5 个 客户 的 处 理 槽 。 如 果 想 要 处 理 一 个 新 
的 客户 ， 只 有 在 存在 空 槽 时 才 可 以 开始 ， 实 际 上 ， 在 这 个 例子 中 客户 处 





理 的 时 间 总 是 相同 的 〈3 秒 ) ， 因 此 会 造成 5 位 客户 会 在 同一 时 间 被 批量 
处 理 的 情况 。 最 后 ， 我 们 得 到 了 和 多 线程 示例 中 相同 的 性 能 ， 不 过 现在 
只 使 用 了 一 个 线程 ， 代 码 更 加 简单 并 且 更 容易 正确 编写 。 





祝 站 你 ， 坦 白地 说 ， 现 在 你 得 到 了 对 于 Twisted 和 非 阻塞 VO 编 程 的 
一 份 非常 严谨 的 介绍 。 


8.2 ”Scrapy 架 构 概 述 


图 8.2 所 示 为 Scrapy 的 架构 。 


process_spider_input() process_item() open_spider() 
i = close_spider() 


Spider(s) 


process_spider_output() 


| 
Spider 中 固件 


process_spider_ exception() 


process_start_requests() 








process _request() 


= 


process_response() 扩展 
process_exception() 





图 8.2 ”Scrapy 架 构 


你 可 能 已 经 注意 到 ， 该 架构 运行 在 我 们 熟悉 的 三 类 对 象 之 
E: Request, Response 以 及 Item 。 我 们 的 息 虫 就 在 架构 的 核心 位 
置 ， 它 们 创建 Request ， 处 理 Response ， 生 成 Item 和 更 多 的 Request 


o 


fe HAE RRA ANI tem 都 使 用 其 process_item() 方法 由 Item 管 道 
序列 执行 后 置 处 理 。 通 常情 况 下 ，process_item() 会 修改 Item ， 然 
后 以 返回 这 些 Item 的 方式 将 其 传 给 后 续 的 管道 。 有 时 候 《〈“ 比 如 元 余 或 
非法 数据 的 情况 ) ， 我 们 可 能 需要 放弃 一 个 Item， 此 时 可 以 通过 抛 出 
DropItem 异常 的 方式 实现 。 这 种 情况 下 ， 后 续 的 管道 将 不 会 再 接收 该 
Item。 如 果 我 们 提供 了 open_spider() 和 / 或 close_spider() Wik, 





那么 爬虫 会 对 应 地 在 开始 和 结束 爬虫 时 调用 该 方法 。 这 里 是 我 们 进行 初 
始 化 和 清理 工作 的 时 机 。Item 管 道 通常 用 于 执行 问题 域名 或 基础 结构 的 
操作 ， 比 如 清理 数据 、 辐 数据 库 插入 Item 等 。 你 还 会 发 现 目 己 会 在 项 
目 之 间 很 大 程度 地 复 用 它们 ， 尤 其 是 当 处 理 基础 架构 细节 时 。 第 4 章 中 
使 用 过 的 Appery.io 管 道 ， 即 通过 少量 配置 上 传 Item 到 Appery.io 的 工 
作 ， 就 是 用 Item 管 道 执 行 基础 架构 工作 的 一 个 例子 。 











PO I as SNE iRequest ， 并 得 到 返回 的 Response ， 来 进 
行 工 作 。Scrapy 以 透明 的 方式 负责 Cookie、 权 限 认 证 、 绥 存 等 ， 我 们 所 
需要 做 的 就 是 偶尔 调整 一 些 设置 。 这 其 中 大 部 分 功能 是 在 下 载 器 中 间 件 
中 实现 的 。 它 们 通常 都 非常 复杂 ， 在 处 理 Request/Response 内 部 构件 
时 有 着 很 高 的 技巧 。 你 可 以 创建 自 定 义 的 中 间 件 ， 以 使 Scrapy 按 照 你 要 
求 的 方式 处 理 Request 。 通 常 ， 成 功 的 中 间 件 可 以 在 多 个 项 目 中 复 用 ， 
并 且 可 以 向 其 他 Scrapy 开 发 者 提供 有 用 的 功能 ， 因 此 同 社区 分 享 是 个 不 
错 的 选择 。 你 没有 必要 经 常 编写 下 载 嚣 中间 件 。 如 有 果 你 想 了 解 默 认 的 下 
载 器 中 间 件 ， 可 以 查看 Scrapy 的 Github 仓 库 中 
settings/default_settings.py 文件 的 
DOWNLOADER_MIDDLEWARES_BASE 设置 。 





下 载 右 是 真正 执行 下 载 的 引擎 。 除 非 你 是 Scrapy 的 代码 页 献 者 ， 人 否 
则 不 要 修改 它 。 





有 时 候 ， 你 可 能 需要 编写 爬虫 中 间 件 〈 见 图 8.3) 。 这 些 中 间 件 在 
候 虫 之 后 且 所 有 下 载 嚣 中间 件 之 前 处 理 Request ; 而 在 处 理 Response 
时 ， 则 是 相反 的 顺序 。 使 用 下 载 器 中 间 件 ， 可 以 做 很 多 事情 ， 比 如 重 写 
所 有 URL， 使 用 HITPS 代 蔡 HITP， 而 不 用 管 下 虫 从 页 面 中 抽取 出 来 的 





内 容 是 什么 。 它 可 以 实现 特定 于 项 目 需 求 的 功能 ， 并 分 享 给 所 有 的 扑 
虫 。 下 载 器 中 间 件 和 不 虫 中 间 件 最 主要 的 区 别 是 ， 当 下 载 器 中 间 件 获取 
一 个 Request 时 ， 只 会 返回 一 个 Response 。 而 爬虫 中 间 件 可 以 在 对 某 
些 Request 不 感 兴趣 时 舍弃 掉 它 们 ， 或 者 对 每 个 输入 的 Request 都 发 出 
多 个 Request ， 用 来 完成 你 的 应 用 程序 的 目标 。 可 以 说 爬虫 中 间 件 是 针 
对 Request 和 Response 的 ， 而 Item 管 道 是 针对 Item MW. MEH HAE TA 
样 也 接收 Item ， 不 过 通常 情况 下 不 会 对 其 进行 修改 ， 因 为 在 Item 管 首 
中 进行 这 些 操 作 更 加 容易 。 如 果 你 想 了 解 默 认 的 扑 虫 中 间 件 ， 可 以 在 
Scrapy 的 Git 上 查看 settings/default_settings.py 文件 的 
SPIDER_MIDDLEWARES_BASE 设置 。 


中 间 件 


+from_crawler(in crawler) 


+from_settings(in settings) z 
7X 7X A 下 载 器 中 间 件 


+process_request(in request, in spider) 
+process_response() 
+process_exception() 


不 虫 中 问 件 
+process_spider_input(in response, in spider) 
I +process_spider_output(in response, in result, in spider) 


+process_item(in item, in spider) | |*Process_spider_exception(in response, in exception, in spider) 
+open_spider(in spider) +process_start_requests(in start_requests, in spider) 





























+close_spider(in spider) 





图 8.3 中间 件 架构 





最 后 还 有 一 个 部 分 是 扩展 。 扩 展 非常 第 见 ， 实 际 上 其 常见 程度 仅 次 
于 Item 管 道 。 它 们 是 在 仆 取 工作 启动 时 加 载 的 普通 类 ， 可 以 访问 设置 、 

















疏 虫 、 注 册 回 调 信和 号 以 及 定义 自己 的 信号 。 信 和 号 是 一 类 基础 的 Scrapy 
API， 它 可 以 让 回调 函数 在 系统 中 发 生 某 些 事情 时 进行 调用 ， 比 如 Item 
被 抓 取 、 丢 弃 时 或 不 虫 开局 时 。 有 很 多 非常 有 用 的 预定 义 信 号 ， 我 们 将 
会 在 后 边 见 到 其 中 的 一 部 分 。 某 种 意义 上 讲 ， 扩 展 有 些 博 而 不 精 ， 它 能 
够 让 你 号 出 任何 可 以 想到 的 工具 ， 但 又 无 法 给 你 实际 的 帮助 〈 比 如 像 
Item 管 道 的 process_item() 方法 ) 。 我 们 必须 将 其 hook 到 信号 上 ， 自 
ER 。 例 如 ， 在 达到 指定 页 数 或 Item 个 数 后 停止 讨 取 ， 束 
通过 扩展 实现 的 。 如 果 想 要 了 人 解 默认 的 扩展 ， 可 以 从 Scrapy 的 Git 上 但 
Se .py 文件 的 EXTENSIONS_BASE 设置 。 








更 严格 地 说 ，Scrapy 把 所 有 这 些 类 都 当 作 是 中 间 件 〈 通 过 
MiddlewareManager 类 的 子 类 管理 ) ， 人 允许 我 们 通过 实现 
from_crawler() 或 from_settings() 类 方法 ， 分别 从 Crawler 
Settings 对 象 初始 化 它们 。 由 于 Settings 可 以 从 Crawler 中 轻松 
获取 Ccrawler.settings ) ， 因 此 from_crawler() 是 更 加 流行 的 方 
式 。 如 果 不 需 要 Settings 或 Crawler ， 可 以 不 去 实现 它们 。 





表 8.1 可 以 帮助 你 在 针对 指定 问题 时 决定 最 好 的 机 制 。 











一 些 只 针对 于 我 正在 爬 取 的 网 站 的 内 容 














修改 或 存储 Item 一 一 特定 领域 ， 可 能 在 项 目 间 复 用 









































编写 爬虫 中 间 
村 定 领 域 ， 可 能 在 项 目 间 复 用 件 





























修改 或 丢弃 Request/Response 



































执行 Request/Response 通用 ， 比如 支持 一 些 定制 化 登录 模式 或 处 Éi 写 下 载 嚣 中 














理 Cookie 的 特定 方式 间 件 




















他 问题 























8.3 ”示例 1: 非常 简单 的 管道 


假设 我 们 有 一 个 包含 几 个 讨 虫 的 应 用 ， 以 Python 常见 格式 提供 疏 取 
日 期 。 数 据 库 需要 将 其 转 为 字符 串 格 式 ， 以 便 进 行 索引 。 我 们 不 想 编 辑 
息 虫 ， 因 为 候 虫 的 数量 比较 多 。 此 时 可 以 怎么 做 呢 ? 使 用 一 个 非常 简单 
的 管道 对 Item 进 行 后 置 处 理 ， 执 行 需要 的 转换 即 可 。 让 我 们 看 看 它 是 如 
何 工作 的 。 


from datetime import datetime 


class TidyUp(object): 


def process_item(self, item, spider): 
item['date'] = map(datetime.isoformat, item['date']) 
return item 





如 你 所 见 ， 这 里 只 有 一 个 包含 process_item() 方法 的 简单 类 。 这 
是 我 们 为 了 这 个 简单 管道 所 需要 做 的 所 有 事情 。 我 们 可 以 复 用 第 3 章 中 
HEER, KAMRE S A pipelines 目录 的 tidyup .py 文件 中 。 





可 以 将 这 个 Item 管 道 的 代码 放 到 任何 地 方 ， 不 过 为 其 创建 一 个 单独 的 目 
录 是 一 个 好 主意 。 











现在 ， 需 要 编辑 项 目的 settings.py 文件 ， 将 ITEM_PIPELINES 
设置 为 


ITEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 } 





MARR RAA, Pe E E ERIS. INR 
个 管道 有 更 小 的 数值 ， 它 将 在 该 管道 之 前 优先 处 理 Item 。 





Q 


本 示例 的 完整 代码 位 于 ch8e8/properties 目录 中 。 





现在 ， 可 以 运行 该 息 虫 了 。 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=96 


INFO: Enabled item pipelines: TidyUp 


DEBUG: Scraped from <200 ...property_000060.htm1> 


‘date’: ['2015-11-08T14:47:04.148968'], 





和 我 们 期 望 的 一 样 ， 日 期 现在 被 格式 化 为 ISO 字符 串 了 。 


8.44 5 


信号 提供 了 一 种 为 系统 中 发 生 的 事件 添加 回调 的 机 制 ， 比 如 当 改 虫 
开启 时 或 当 item 被 抓 取 时 。 可 以 使 用 crawler.signals.connect() 
方法 hook 到 它们 上 《下 一 节 将 会 给 出 使 用 它 的 一 个 示例 ) 。 信 号 总 共有 
11 个 ， 理 解 它 们 的 最 简单 方式 可 能 就 是 在 实践 中 看 到 它们 。 我 创建 了 一 
个 项 目 ， 在 其 中 创建 了 一 个 扩展 ，hook 了 上 所 有 可 以 使 用 的 信号 。 另 外 ， 
我 还 创建 了 一 个 Item 管道 、 一 个 下 载 器 和 一 个 仆 虫 中 间 件 ， 可 以 记录 
所 有 的 方法 调用 。 该 项 目 使 用 的 爬虫 非常 简单 ， 只 对 两 个 item 进 
行 yield 操作 ， 然 后 抛 出 异常 。 








def parse(self, response): 
for i in range(2): 
item = HooksasyncItem() 


item[ 'name'] = "Hello %d" % i 
yield item 
raise Exception("dead") 





在 第 二 个 item 中 ， 我 配置 了 Item 管 道 ， 以 抛 出 DropItem 异常 。 
Q 


本 示例 的 完整 代码 可 以 从 che8/hooksasync 得 到 。 








使 用 该 项 目 ， 我 们 可 以 更 好 地 理解 茶 个 信号 是 什么 时 候 发 出 的 。 请 
查看 如 下 执行 中 日 志 行 之 间 的 注释 〈 为 了 简短 起 见 ， 省 略 了 部 分 行 ) 。 








$ scrapy crawl test 


. many lines ... 


# First we get those two signals... 


INFO: Extension, signals.spider_opened fired 


INFO: Extension, signals.engine_started fired 


# Then for each URL we get a request_scheduled signal 


INFO: Extension, signals.request_scheduled fired 


...# when download completes we get response downloaded 


INFO: Extension, signals.response_downloaded fired 


INFO: DownloaderMiddlewareprocess response called for example.com 


# Work between response_downloaded and response_received 


INFO: Extension, signals.response_received fired 


INFO: SpiderMiddlewareprocess_spider_input called for example.com 


# here our parse() method gets called... and then SpiderMiddleware used 


INFO: SpiderMiddlewareprocess_spider_output called for example.com 


# For every Item that goes through pipelines successfully... 


INFO: Extension, signals.item_scraped fired 


# For every Item that gets dropped using the DropItem exception... 


INFO: Extension, signals.item_dropped fired 


# If your spider throws something else... 


INFO: Extension, signals.spider_error fired 


# ... the above process repeats for each URL 


# =... till we run out of them. then... 


INFO: Extension, signals.spider_idle fired 


# by hooking spider_idle you can schedule further Requests. If you don't 


# the spider closes. 


INFO: Closing spider (finished) 


INFO: Extension, signals.spider_closed fired 


# ... stats get printed 


# and finally engine gets stopped. 


INFO: Extension, signals.engine_stopped fired 





虽然 只 有 11 个 信号 ， 可 能 会 感觉 比较 有 限 ， 但 是 每 个 Scrapy 的 默认 
中 间 件 都 是 只 使 用 它们 实现 的 ， 因 此 它们 肯定 够 用 。 请 注意 ， 除 了 





spider_idle. spider_error ~ request_scheduled 
. response received filresponse_ downloaded 以 外 的 所 有 其 他 信 
号 ， 都 可 以 返回 延迟 ， 而 不 是 真实 值 。 











8.5 ”示例 2: 测量 奉 吐 量 和 延 时 的 扩展 








当 我 们 在 第 9 章 中 添加 管道 后 ， 测 量 吞 吐 量 《〈 每 秒 的 item 数 ) 和 延 
时 《计划 后 和 下 载 后 的 时 间 ) 的 变化 是 一 件 很 有 意思 的 事情 。 





Scrapy 扩 展 中 已 经 包含 了 一 个 测量 吞吐 量 的 扩展 ， 即 日 志 统 计 扩展 
(scrapy/extensions/logstats.py) ， 我 们 将 会 以 此 为 起 点 。 要 想 
测量 延 时 ， 需 要 hook 一 些 信 号 ， 包 括 request_scheduled 
. response received 和 item_scraped 。 我 们 对 每 个 信号 记录 时 间 





戳 ， 并 通过 累计 多 次 取 平 均值 的 方式 减 去 适当 的 计算 延 时 。 通 过 观察 这 
些 信 号 提供 的 回调 参数 ， 会 发 现 一些 讨 厌 的 东西 。item_scraped 只 
在 Response 中 获得 ，request_scheduled 只 在 Request 中 获得 ， 

而 response_received 则 是 两 者 中 都 有 。 笠 运 的 是 ， 我 们 不 需要 任何 
特殊 的 技巧 来 传递 这 些 值 。 每 个 Response 都 有 一 个 Request RR, E 
指 其 Request ， 更 好 的 是 它 拥 有 我 们 在 第 5 章 中 看 到 的 meta 字典 ， 它 和 
原始 Request 中 的 一 样 ， 而 不 管 是 否 存 在 重 定 同 。 非 常 好 ， 我 们 可 以 在 
这 里 存储 时 间 惟 了 ! 











实际 上 ， 这 并 不 是 我 的 主意 。 同 样 的 机 制 已 经 在 AutoThrottle 扩 展 
(scrapy/extensions/throttle.py) 中 使 用 了 。 在 该 扩展 中 ， 使 用 了 
request.meta.get('download latency') ， 其 中 download_1latency 是 
fEscrapy/core/downloader/webclient.py 下 载 器 中 进行 计算 的 。 在 编 

写 中 间 件 时 ， 最 快 的 改善 方式 就 是 让 上 自己 熟悉 Scrapy 默 认 的 中 间 件 代码 。 









































下 面 是 扩展 的 代码 。 





class Latencies(object): 
@classmethod 
def from_crawler(cls, crawler): 
return cls(crawler) 


def _ init__(self, crawler): 
self.crawler = crawler 
self.interval = crawler.settings.getfloat('LATENCIES INTERVAL' ) 
if not self.interval: 
raise NotConfigured 
cs = crawler.signals 
cs.connect(self. spider_opened, signal=signals.spider_opened) 
cs.connect(self. spider_closed, signal=signals.spider_closed) 


cs.connect(self. request_scheduled, signal=signals.request_scheduled) 
cs.connect(self. response received, signal=signals.response_ received) 
cs.connect(self. item scraped, signal=signals.item_scraped) 
self.latency, self.proc_latency, self.items = 0, 0, 0 


def _spider_opened(self, spider): 
self.task = task.LoopingCall(self._log, spider) 
self.task.start(self.interval) 


def _spider_closed(self, spider, reason): 
if self.task.running: 
self.task.stop() 


def _request_scheduled(self, request, spider): 
request.meta['schedule time'] = time() 
def response _received(self, response, request, spider): 
request.meta[ ‘received _time'] = time() 
def _item_scraped(self, item, response, spider): 
self.latency += time() - response.meta['schedule time ] 
self.proc_latency += time() - response.meta[ 'received_time' ] 
self.items += 1 
def _log(self, spider): 
irate = float(self.items) / self.interval 
latency = self.latency / self.items if self.items else 6 
proc_latency = self.proc_latency / self.items if self.items else 6 
spider.logger.info(("Scraped %d items at %.1f items/s, avg latency: " 
"%.2f s and avg time in pipelines: %.2f s") % 
(self.items, irate, latency, proc_latency) ) 
self.latency, self.proc_latency, self.items = 0, 0, 0 








前 两 个 方法 非常 重要 ， 因 为 它们 很 通用 。 它 们 使 用 Crawler 对 象 初 
始 化 中 间 件 。 你 会 发 现 这些 代 码 几 乎 出 现在 每 个 重要 的 中 间 件 当 
H, from_crawler(cls, crawler) 是 获取 Crawler 对 象 的 方式 。 然 
后 ， 可 以 注意 到 在 ”init () 方法 中 ， 访 问 了 crawler.settings ， 
并 且 会 在 其 未 设置 时 抛 出 NotConfigured 异常 。 你 会 看 到 很 多 FooBar 
扩展 ， 用 于 检查 相应 的 FOOBAR_ENABLED 设置 ， 如 果 没 有 设置 或 者 设置 
为 False 时 ， 将 会 抛 出 异常 。 这 是 一 种 非常 常见 的 模式 ， 是 为 了 方便 将 
中 间 件 包含 在 对 应 的 settings .py 设置 中 (比如 ITEM_PIPELINES 











) ， 但 是 默认 情况 下 是 禁用 的 ， 除 非 通 过 其 对 应 的 设置 显 式 局 用 。 许 多 
默认 的 Scrapy 中 间 件 (比如 AutoThrottle 或 HttpCache〉 都 使 用 了 这 种 模 

式 。 在 本 例 中 ， 我 们 的 扩展 会 保持 LATENCIES_INTERVAL 的 禁用 状态 ， 

除非 已 经 对 其 进行 了 设置 。 


fE__init_() 方法 的 后 面 一 部 分 代码 中 ， 我 们 使 
用 crawler.signals.connect() ， 为 所 有 感 兴趣 的 信号 都 注册 了 回 
调 ， 并 初始 化 了 一 些 成 员 变 量 。 这 个 类 的 剩余 部 分 实现 了 信号 处 理 器 。 
f£_spider_opened() 中 ， 我 们 初始 化 了 一 个 计时 器 ， 会 每 隔 
LATENCIES INTERVAL 秒 调用 _log() 方法 ; 在 _spider_closed() 
中 ， 我 们 停止 了 该 计时 器 。 在 _request_scheduled() 和 
_response_received() 中 ， 我 们 在 request .meta 中 存储 了 时 间 惟 ; 
而 在 _item_scraped() 中 ,我 们 累计 两 次 延 时 《从 计划 / 接收 开始 直 
到 当前 时 间 ) ， 并 递增 抓 取 到 的 Item 的 数量 。 在 _log( ) 方法 中 ， 我 们 
计算 了 平均 值 ， 格 式 化 并 打印 出 消息 ， 重 置 累加 器 以 开始 男 一 个 采样 周 
期 。 





任何 在 多 线程 上 下 文中 编写 类 似 代码 的 人 ， 都 会 意识 到 上 述 代 码 中 没有 
使 用 互 斥 锁 。 本 例 可 能 还 不 是 特别 复 林 ， 不 过 编写 单线 程 代码 仍然 要 更 加 简 
单 ， 并 且 在 更 加 复杂 的 场景 下 可 以 很 好 地 扩展 。 

































































我 们 可 以 将 该 扩展 的 代码 添加 到 latencies .py 模块 中 ， 放 到 和 
settings.py 同 级 的 目录 下 。 如 果 想 要 启用 该 扩展 ， 只 需 


在 settings.py 文件 中 添加 如 下 两 行 。 


EXTENSIONS = { ‘properties.latencies.Latencies': 500, 


LATENCIES INTERVAL 





我 们 可 以 像 平 时 那样 运行 它 。 


$ pwd 
/root/book/ch@8/properties 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=10@0 -s LOG_LEVEL=INFO 


INFO: Crawled © pages (at © pages/min), scraped © items (at © items/min) 


INFO: Scraped © items at 0.0 items/sec, average latency: @.@@ sec and 


average time in pipelines: 0.00 sec 


INFO: Scraped 115 items at 23.0 items/s, avg latency: @.84 s and avg time 


in pipelines: 0.12 s 


INFO: Scraped 125 items at 25.0 items/s, avg latency: @.78 s and avg time 


in pipelines: 0.12 s 











日 志 的 第 一 行 来 自 日 志 统计 扩展 ， 而 接 下 来 的 各 行 来 自我 们 的 扩 
展 。 可 以 看 到 吞吐 量 是 每 秒 25 个 item， 平 均 时 延 是 0.78 秒 ， 我 们 在 下 载 
后 几乎 没有 花费 时 间 处 理 。 通 过 利 特 尔 法 则 ， 我 们 得 到 系统 中 item 的 数 
量 为 N =S.T=43 .6.45 哇 19。 无 论 设置 的 
CONCURRENT_REQUESTS 和 CONCURRENT_REQUESTS_PER_DOMAIN 是 多 
少 ， 即 便 没 有 触及 100% 的 CPU， 出 于 某 些 原因 ， 也 不 应 该 使 其 超过 
30。 我 们 可 以 在 第 10 章 中 了 解 更 多 相关 内 容 。 














8.6 中间 件 延伸 


本 节 是 为 好 奇 的 读者 提供 的 ， 而 不 再 是 开发 者 。 如 果 只 是 编写 基础 
或 中 级 的 Scrapy 扩 展 的 话 ， 你 并 不 需要 了 解 这 些 内 容 。 


如 果 查 看 scrapy/settings/default_settings.py 文件 ， 就 会 
发 现在 默认 设置 中 有 很 多 类 名 。Scrapy 大 量 使 用 了 依赖 注入 机 制 ， 可 以 
让 我 们 自 定 义 和 扩 展 许多 内 部 对 象 。 例 如 ， 一 些 人 可 能 希望 支持 除了 文 
件 、HTTP、HTTPS、S3 以 及 FTP 这 些 在 
DOWNLOAD_HANDLERS_BASE 设 置 中 定义 好 的 协议 以 外 的 更 多 协 
议 。 要 想 实 现 这 一 点 ， 只 需要 创建 一 个 下 载 处 理 器 类 ， 并 在 
DOWNLOAD_HANDLERS 设 置 中 添加 映射 即 可 。 最 困难 的 部 分 是 找 出 
你 的 自 定 义 类 必须 包含 哪些 接口 〈 即 需要 实现 哪些 方法 ) ， 因 为 大 部 分 
接口 都 不 是 显 式 的 。 你 必须 阅读 源 代 码 ， 碍 看 这 些 类 是 如 何 使 用 的 。 最 
好 的 办 法 是 从 已 有 的 实现 开始 ， 将 其 修改 为 令 自己 满意 的 版 本 。 不 过 ， 
这 些 接口 在 近期 的 Scrapy 版 本 中 已 经 逐渐 趋 于 稳定 ， 因 此 我 将 尝试 在 图 
8.4 中 将 它们 和 Scrapy 核 心 类 一 起 记录 成 文档 〈 这 里 省 略 了 前 面 已 经 提 及 

















的 中 间 件 架构 〉。 


scrapy craw] and other 


commands | CrawlerRunner | 
«uses» -spider_loader : SpiderLoader from in 


i +crawlfin crawler_or_spidercls) +load(in spider_name) -mqs : MemoryQueue 
1 +stopl) +list() -dqs : DiskQueue 


Pr AN +find_by_request(in request) | |-dupefilter : BaseDupeFilter 


ER 








-engine : ExecutionEngine ExecutionEngine 


imak SlenalManager -downloader : Downloader 
-settings : Settings € 


-extensions : ExtensionManager 
-logformatter : LogFormatter 


-scraper : Scraper 
-slot.scheduler : Scheduler 





+request_seen(in request) 


K 
+log(in request, in spider) feces 
-middleware : DownloaderMiddlewareManager -spidermw : SpiderMiddlewareManager 
-handlers : DownloadHandlers -itemproc : ItemPipelineManager 


cea a o 
fs DummyStatsCollector 
[人 fk ë 

ZX [| E 
MemoryStatsCollector DownloadHandlers 
PY +download_request(in request, in spider) 


«uses» 


1 
U 
DownloadHandler 


+download_request(in request, in spider) 
> 
+close() 


..also S3DownloadHandler, 
HttpDownloadHandler which inherits from 
HTTP10DownloadHandler etc. 


ItemPipelineManager 





An interesting extension 
is FeedExporter: 


«Uses» 
FeedExporter „> BaseltemExporter 
as 
| wusesn | +start_exporting(in request, in spider) 
+finish_exporting() scrapy check command 
1 


+export_item(in item) «uses» 
1 


1 
1 
ContractsManager 


















JsonLinesitemExporter 











JsonitemExporter 


..also CsvitemExporter, 












StdoutFeedStorage FileFeedStorage 


BlockingFeedStorage 


+pre_process(in response) 
+post_process(in output) 
+adjust_request_args(in args) 


PickleltemExporter, 
| O MarshalitemExporter, 
Po PprintitemExporter, 
7X 7X PythonltemExporter etc. 









+post_process(in output) +adjust_request_args(in args) 


S3FeedStorage 


FTPFeedStorage 





+post_process(in output) 


图 8.4 ”Scrapy 接 口 和 核心 对 象 


核心 类 位 于 图 8.4 的 左上 角 。 当 人 们 使 用 scrapy crawl 时 ，Scrapy 
就 会 使 用 CrawlerProcess 对 象 创建 我 们 熟悉 的 Crawler 对 
KR. Crawler 对 象 是 最 重要 的 Scrapy 类 。 它 包括 settings 、signals 
以 及 spider 。 在 名 为 extensions.crawler.engine 的 
ExtensionManager 对 象 中 ， 还 包含 所 有 的 扩展 ， 这 将 带领 我 们 来 到 另 
一 个 非常 重要 的 类 一 一 ExecutionEngine 。 在 该 类 中 ， 包 含 了 
Scheduler . Downloader a 。URL 通 过 Scheduler 进行 
计划 ， 通 过 Downloader 下 载 ， 通 过 Scraper 进行 后 置 处 理 。 宇 无 疑 
la], Downloader seein 和 DownloadHandler 
， 而 Scraper 包含 SpiderMiddleware 和 ItempPipeline 。4 
个 MiddlewareManager 也 都 拥有 其 自己 的 小 架构 。 在 Scrapy 中 ，feed 输 
出 是 以 扩展 的 形式 实现 的 ， 即 FeedExporter 。 它 包含 两 个 独立 的 结 
构 ， 一 个 用 于 定义 输出 格式 ， 而 另 一 个 用 于 存储 类 型 。 这 就 允许 我 们 可 
以 通过 调整 输出 的 URL 将 S3 的 XML 文件 导出 为 命令 行 上 的 Pickle 编 码 输 
出 。 这 两 个 结构 还 可 以 使 用 FEED_STORAGES 和 FEED_EXPORTERS 设置 
进行 独立 扩展 。 最 后 ，scrapy check 命令 使 用 的 contract 也 有 其 自身 的 
结构 ， 可 以 使 用 SPIDER_CONTRACTS 设置 进行 扩展 。 





8.7 本章 小 结 








喜 你 ， 你 已 经 对 Scrapy 和 Twisted 编程 有 了 深入 了 解 。 你 可 
a pua 到 目前 为 止 ， 我 们 需 人 
最 流行 的 扩展 是 Item 处 理 管 道 。 下 一 草 会 用 它 解 决 一 些 常见 的 问题 。 








上 一 章 讨论 了 使 用 Scrapy 中 间 件 的 编程 技术 。 本 章 将 通过 展示 各 种 
常见 用 例 〈( 包 括 消 费 REST API、 数 据 库 接口 、 处 理 CPU 密 集 型 任务 以 
及 与 遗留 服务 的 接口 ) ， 重 点 关注 编写 正确 而 高 效 的 管道 。 











在 本 章 中 ， 我 们 将 会 使 用 几 个 新 的 服务 器 ， 你 可 以 在 图 9.1 的 石 侧 
看 到 这 些 服 务 器 。 





图 9.1 本 章 使 用 的 系统 


Vagrant 应 该 已 经 为 我 们 创建 好 了 这 些 服务 器 ， 我 们 可 以 从 dev 服 务 
器 中 使 用 其 主机 名 进行 png 操 作 ， 例 如 ping es ping mysql 。 话 不 
多 说 ， 让 我 们 从 REST API 开 始 探索 吧 。 


9.1 使 用 REST API 


REST 是 一 套用 于 创建 现代 Web 服 务 的 技术 ， 其 主要 优点 是 比 SOAP 
或 专 有 Web 服 务 机 制 更 加 简单 ， 更 加 轻 量 级 。 软 件 开发 人 员 观 察 发 现 ， 
Web 服 务 经 党 提供 的 CRUD (创建 、 读 取 、 更 新 、 删 除 [Create 
、Read 、Update 、Delete] ) 功能 与 HITP 基 本 操作 (GET. POST. 
PUT. DELETE) 具有 相似 性 。 男 外 ， 他 们 还 发 现 典 型 的 Web 服 务 调用 
其 所 需 的 大 部 分 信息 时 ， 都 可 以 将 其 压缩 到 资源 URL 上 。 例 
如 ，http://api.mysite.com/ customer/john 是 一 个 资源 URL， 它 
可 以 让 我 们 确定 目标 服务 器 (api.mysite.com ) ， 实 际 上 我 正在 尝试 
在 服务 器 上 执行 和 customers (4) 相关 的 操作 ， 更 具体 的 说 就 是 执行 
和 john 〈 行 一 一 主键 ) 相关 的 操作 。 当 它 与 其 他 Web 概 念 〈《 如 安全 认 
证 、 无 状态 、 缓 存 、 使 用 XML 或 JSON 作 为 载荷 等 ) 结合 时 ， 能 够 通过 
一 种 强大 而 又 简单 、 熟 悉 且 可 以 轻松 跨 平 台 的 方式 ， 提 供 和 使 用 Web 服 
务 。 难 怪 REST 可 以 掀起 软件 行业 的 一 场 风暴 。 


9.1.1 使 用 treq 


treq 是 一 个 Python 包 ， 相 当 于 基于 Twisted 应 用 编写 的 Python 
requests 包 。 它 可 以 让 我 们 轻松 执行 GET、POST 以 及 其 他 HTTP 请 
求 。 想 要 安装 该 包 ， 可 以 使 用 pip install treq ， 不 过 它 已 经 在 我 们 
的 开发 机 中 预先 安装 好 了 。 





我 们 更 倾向 于 选择 treq 而 不 是 Scrapy 的 
Request/crawler.engine.download() 的 原因 是 ， 虽 然 它们 都 很 简 
单 ， 但 是 在 性 能 上 treq 更 有 优势 ， 我 们 将 会 在 第 10 章 中 看 到 更 详细 的 


Je 


9.1.2 ”用 于 写 入 Elasticsearch 的 管道 


首先 ， 我 们 要 编写 一 个 将 Item 存储 到 ES (Elasticsearch ) 服务 器 
的 肘 虫 。 你 可 能 会 觉得 从 ES 开始 ， 甚 至 爷 于 MySQL， 作 为 持久 化 机 制 
进行 讲解 有 些 不 太 寻 常 ， 不 过 其 实 它 是 我 们 可 以 做 的 最 简单 的 事情 。E 
可 以 是 无 模式 的 ， 也 就 是 说 无 需 任何 配置 束 能 够 使 用 它 。 ee 
(非常 简单 的 ) HHR, treg 也 已 经 足够 使 用 。 如 果 想 要 使 用 更 高 
级 的 ES 功能 ， 则 需要 考虑 使 用 txes2 或 其 他 Python/Twisted ES 包 。 








在 我 们 的 开发 机 中 ， 已 经 包含 正在 运行 的 ES 服务 器 了 。 下 面 登录 到 
开发 机 中 ， 验 证 其 是 否 正 在 正常 运行 





$ curl http://es:9200 


{ 


" : "Living Brain", 


“cluster_name" : "elasticsearch", 


"version" : { ... }, 


"tagline" : "You Know, for Search" 





在 宿主 机 浏览 器 中 ， 访 问 http://localhost:92866 ， 也 可 以 看 到 
同样 的 结果 。 当 访问 


http://localhost:9260/properties/property/_search 时 ， 可 以 
Ce ad 
恩 相 关 的 索引 。 茶 喜 你 ， 刚 刚 已 经 使 用 了 ES 的 REST API. 


在 本 章 ， 我 们 将 在 properties 集 合 中 插入 房产 信息 。 你 可 能 需要 重 置 
properties 集 合 ， 此 时 可 以 使 用 curl 执行 DELETE 请 求 : 














$ curl -XDELETE http://es:9200/properties 





A 很 多 额外 的 细节 ， 如 更 多 的 错误 处 
各 通过 凸显 关键 点 的 方式 ， 保 持 这 里 的 代码 简洁 。 


ME 
tet 
> 
je < 
T 
= 
Ee 


本 章 在 che9 目录 当中 ， 其 中 本 示例 的 代码 
为 ch69/properties/properties/pipelines/es.py 。 








从 本 质 上 说 ， 疏 虫 代码 只 包含 如 下 4 行 


@defer.inlineCallbacks 
def process _item(self, item, spider): 
data = json.dumps(dict(item), ensure_ascii=False) .encode("utf- 


8") 
yield treq.post(self.es_url, data) 





其 中 ， 前 两 行 用 于 定义 标准 的 process_item() 方法 ， 可 以 在 其 中 
yield 延迟 操作 〈 参 考 第 8 章 ) 。 


第 3 行 用 于 准备 要 插入 的 data 。 首 先 ， 我 们 将 Item 转化 为 字典 。 
然后 使 用 json .dumps() 将 其 编码 为 JSON 格 式 。ensure ascii=False 
的 目的 是 通过 不 转 义 非 ASCII 字 符 ， 使 得 输出 更 加 紧凑 。 然 后 ， 将 这 些 
JSON 字 符 串 编码 为 UTF-8， 即 JSON 标 准 中 的 默认 编码 。 





最 后 一 行使 用 treq 的 post( ) 方法 执行 POST 请 求 ， 将 文档 插入 到 
ElasticSearch 中 。es_url 存储 在 settings .py 文件 当中 
(ES_PIPELINE_URL 设置 ) ， 如 http:// 
es:9266/properties/property ， 可 以 提供 一 些 基本 信息 ， 如 ES 服 
务 器 的 IP 和 端口 (es:9268 ) 、 集 合 名称 (properties ) 以 及 想 要 写 
入 的 对 象 类 型 (property ) 。 





要 想 启 用 该 管道 ， 需 要 将 其 添 加 到 settings.py 文件 的 
ITEM_PIPELINES 设置 当中 ， 并 且 使 用 ES_PIPELINE_URL 设置 进行 初 
始 化 。 





ITEM PIPELINES = { 
"properties.pipelines.tidyup.TidyUp': 166， 
'properties.pipelines.es.EsWriter': 800, 


ES_PIPELINE_URL = 'http://es:9200/properties/property' 





完成 上 述 工作 后 ， 我 们 可 以 进入 到 适当 的 目录 当中 。 


$ pwd 
/root/book/ch@9/properties 
$ 1s 


properties scrapy.cfg 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Enabled item pipelines: EsWriter... 


INFO: Closing spider (closespider_itemcount)... 


"item_scraped_count': 106, 





QAR OLE BIR lel http: // localhost :9200/properties/ 
property/_ search ， 可 以 在 响应 的 hits/total 字段 中 看 到 已 经 插 


入 的 条 目 数量 ， 以 及 前 10 条 结 采 。 我 们 还 可 以 通过 添加 ?size=166 参数 
取得 更 多 结果 。 在 搜索 URL 中 添加 q= 参数 时 ， 可 以 在 全 部 或 特定 字段 

中 搜索 指定 关键 词 。 最 相关 的 结果 将 会 出 现在 最 前 面 。 例 

W, http://localhost: 9200/properties/property/ search? 

q=title: london ， 将 会 返回 标题 中 包含 "London" 的 房产 信息 。 对 于 
更 加 复杂 的 查询 ， 可 以 查阅 ES 的 官方 文档 ， 网 址 为 : 


https://www.elastic.co/guide/en/elasticsearch/reference/c 








query-dsl-query-string-query.html . 





ES 不 需要 配置 的 原因 是 它 可 以 根据 我 们 提供 的 第 一 个 属性 自动 检测 
模式 (字段 类 型 )。 通 过 访问 http://localhost:92686/properties/ 
， 可 以 看 到 其 自动 检测 的 映射 关系 。 


让 我 们 快速 得 看 一 下 性 能 ， 使 用 上 一 章 结尾 处 给 出 的 方式 重新 运 
行 scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1666 。 平 均 延 
时 从 0.78 秒 增长 到 0.81 秒 ， 这 是 因为 管道 的 平均 时 间 从 0.12 秒 增长 到 了 
0.15 秒 。 吞 吐 量 仍然 保持 在 每 秒 大 约 25 个 Item。 


使 用 管道 将 Item 插 入 到 数据 库 当 中 是 不 是 一 个 好 主意 呢 ? 答案 是 否定 
的 。 通 常情 况 下 ， 数 据 库 提供 的 批量 插入 条 目的 方式 可 以 有 几 个 数量 级 的 效 
率 提升 ， 因 此 我 们 应 当 使 用 这 种 方式 。 也 就 是 说 ， 应 当 将 Item 打 包 批 量 插 
入 ， 或 在 候 虫 结束 时 以 后 置 处 理 的 步骤 执行 搬入。 我们 将 在 最 后 一 半 中 看 到 
这 些 方法 。 不 过 ， 许 多 人 仍然 使 用 Item 管 道 插入 数据 库 ， 此 时 使 用 Twisted 
API 而 不 是 通用 /阻塞 的 方法 实现 该 方案 才 是 正确 的 方式 。 


































































































9.1.3 ”使 用 Google Geocoding API 实 现 地 理 编码 的 管道 








每 个 房产 信息 都 有 地 区 名 称 ， 因 此 我 们 想 对 其 进行 地 理 编码 ， 也 就 
是 说 找到 它们 对 应 的 坐标 (经 度 、 纬 度 ) 。 我 们 可 以 使 用 这 些 坐 标 将 房 
产 信息 放 到 地 图 上 ， 或 是 根据 它们 到 某 个 位 置 的 距离 对 搜索 结果 进行 排 
序 。 开 发 这 种 功能 需要 复杂 的 数据 库 、 文 本 匹配 以 及 空间 计算 。 而 使 用 
Google 的 Geocoding API， 可 以 避免 上 面 提 到 的 几 个 问题 。 可 以 通过 浏览 
器 或 curl 打开 下 述 URL 以 获取 数据 。 





$ curl "https://maps.googleapis.com/maps/api/geocode/json?sensor=false&ad 


dress=london" 


"results" : [ 


"formatted_address" : “London, UK", 


"geometry" : { 


"location" : { 


"lat" : 51.5073509, 


"Ing" : -0.1277583 


Jo 


"location_type" : "APPROXIMATE", 


]， 


"status" : "OK" 





我 们 可 以 看 到 一 个 JSON 对 象 ， 当 搜索 "location" 时 ， 可 以 很 快 发 现 
Google 提 供 的 是 伦敦 中 心 坐 标 。 如 果 继 续 搜 索 ， 会 发 现 同一 文档 中 还 包 





含 其 他 位 置 。 其 中 ， 第 一 个 坐标 位 置 是 最 相关 的 。 因 此 ， 如 果 存 
fEresults[@].geometry.location 的 话 ， 它 就 是 我 们 所 需要 的 信 
息 。 

Google 的 Geocoding API 可 以 使 用 之 前 用 过 的 技术 (treq ) 进行 访 
问 。 只 需 几 行 ， 就 可 以 找 出 一 个 地 址 的 坐标 位 置 (查看 pipeline 目录 
的 geo.py 文件 ) ， 其 代码 如 下 。 











@defer.inlineCallbacks 
def geocode(self, address): 
endpoint = 'http://web:9312/maps/api/geocode/json' 


parms = [('address', address), ('‘sensor', 'false')] 
response = yield treq.get(endpoint, params=parms) 


content = yield response.json() 


geo = content['results'][0]["geometry" ]["location" | 
defer.returnValue({"lat": geo["lat"], "lon": geo["1ng"]}) 





函数 使 用 了 一 个 和 前 面 用 过 的 URL 相 似 的 URL， 不 过 在 这 里 将 其 
woe 以 使 其 执行 速度 更 快 ， 侵 入 性 更 小 ， 可 离线 使 用 
并 且 更 加 可 预测 。 可 以 使 用 endpoint = 
'https://maps.googleapis.com/maps/api/geocode/json' 来 访 
问 Google 的 服务 器 ， 不 过 E ee ane 
fill, address 和 sensor 的 值 都 通过 treq 的 get() 方法 的 params 参数 
进行 了 自动 URL 编 码 。treq.get() 方法 返回 了 一 个 延迟 操作 ， 我 们 对 
其 执行 yield 操作 ， 以 便 在 啊 应 可 用 时 恢复 它 。 对 response.json( ) 
的 第 二 个 yield 操作 ， 用 于 等 待 啊 应 体 加 载 完成 并 解析 为 Python 对 象 。 
此 时 ， ee ee 将 其 格式 化 为 字典 后 ， 使 
用 defer.returnValue() 返回 ， 该 方法 是 从 使 用 inlineCallbacks 的 
方法 返回 值 的 最 适当 的 方式 。 如 果 任 何 地 方 存 在 问题 ， 该 方法 会 抛 出 异 
常 ， 并 通过 Scrapy 报 告 给 我 们 。 








通过 使 用 geocode() ，process_item() 可 以 变 为 一 行 代 码 ， 如 下 
所 示 。 


item["location"] = yield self.geocode(item["address"][8]) 





我 们 可 以 在 ITEM_PIPELINES 设置 中 添加 并 启用 该 管道 ， 其 优先 级 
数值 应 当 小 于 ES 的 优先 级 数值 ， 以 便 ES 获 取 坐 标 位 置 的 值 。 


ITEM PIPELINES = { 





"properties.pipelines.geo.GeoPipeline': 400, 





我 们 局 用 调试 数据 ， 运 行 一 个 快速 的 爬虫 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=96 -L DEBUG 


{'address': [u'Greenwich, London'], 


"image_urls': [u'http://web:9312/images/i@6.jpg'], 


‘location’: {'lat': 51.482577, 'lon': -@.007659}, 


"price': [1030.0], 





现在 ， 可 以 看 到 Item 中 包含 了 location 字段 。 太 好 了 ! 不 过 当 使 
用 真实 的 Google API 的 URL 临 时 运行 它 时 ， 很 快 束 会 得 到 类 似 下 面 的 异 


Aw 


Ifa o 


File "pipelines/geo.py" in geocode (content['status'], address) ) 
Exception: Unexpected status="OVER_QUERY_LIMIT" for 


address="*London" 





这 是 我 们 在 完整 代码 中 放 入 的 一 个 检查 ， 用 于 确保 Geocoding API 
的 响应 中 status 字段 的 值 是 OK 。 如 果 该 值 非 真 ， 则 说 明 我 们 得 到 的 返 
回 数据 不 是 期 望 的 格式 ， 无 法 被 安全 使 用 。 在 本 例 中 ， 我 们 得 到 了 
OVER_QUERY_LIMIT 状态 ， 可 以 清楚 地 说 明 在 什么 地 方 发 生 了 错误 。 这 
可 能 是 我 们 在 许多 案例 中 都 会 面临 的 一 个 重要 问题 。 由 于 Scrapy 的 引擎 
具备 较 高 的 性 能 ， 绥 存 和 资源 请 求 的 限 流 成 为 了 必须 考虑 的 问题 。 


可 以 访问 Geocoder API 的 文档 来 了 解 其 限制 : “免费 用 户 API: 每 24 
小 时 允许 2500 个 请 求 ， 每 秒 允许 5 个 请 求 ”。 即 使 使 用 了 Google 
Geocoding API 的 付费 版 本 ， 仍 然 会 有 每 秒 10 个 请 求 的 限 流 ， 这 就 意味 
着 该 讨论 仍然 是 有 意义 的 。 


下 面 的 实现 看 起 来 可 能 会 比较 复杂 ， 但 是 它们 必须 在 上 下 文中 进行 判 
断 。 而 在 典型 的 多 线程 环境 中 创建 此 类 组 件 需 要 线程 池 和 同步 ， 这 样 就 会 产 
生 更 加 复杂 的 代码 。 


























下 面 是 使 用 Twisted 技 术 实 现 的 一 个 简单 而 又 足够 好 用 的 限 流 引 


ž 





class Throttler(object): 
def _init_ (self, rate): 
self.queue = [] 
self.looping_call = task.LoopingCall(self._allow_one) 
self.looping_call.start(1. / float(rate)) 


def stop(self): 
self.looping_call.stop() 


def throttle(self): 
d = defer.Deferred() 
self.queue.append(d) 
return d 


def _allow_one(self): 
if self.queue: 
self.queue.pop(@).callback(None) 





该 代码 中 ， 延 迟 操作 排队 进入 列表 中 ， 每 次 调用 _allow_one() 时 
依次 触发 它们 ; _allow_one() 检查 队列 是 否 为 宝 ， 如 果 不 是 ， 则 调用 
最 旧 的 延迟 操作 的 callback() (先入 先 出 ，FIFO〉。 我 们 使 用 Twisted 
的 task.LoopingCall() API 周 期 性 调用 _allow_one()。 使 
用 Throttler 非常 简单 。 我 们 可 以 在 管道 的 _ init__ 中 对 其 进行 初始 
化 ， 并 在 讨 虫 结束 时 对 其 进行 清理 。 


class GeoPipeline(object): 
def _init__(self, stats): 
self.throttler = Throttler(5) # 5 Requests per second 


def close spider(self, spider): 
self.throttler.stop() 





在 使 用 想 要 限 流 的 资源 之 前 (在 本 例 中 为 在 process_item() 中 调 
用 geocode() ) ， 需 要 对 限 流 器 的 throttle() 方法 执行 yield 操作 。 


yield self.throttler.throttle() 


item["location"] = yield self.geocode(item[ "address"][@]) 





在 第 一 个 yield 时 ， 代 码 将 会 暂停 ， 等 待 足够 的 时 间 过 去 之 后 再 恢 
复 。 比 如 ， 某 个 时 刻 共 有 11 个 延迟 操作 在 队列 中 ， 我 们 的 速率 限制 是 每 
秒 5 个 请 求 ， 我 们 的 代码 将 会 在 队列 清空 时 恢复 ， 大 约 为 11/5=2.2 秒 。 


使 用 Throttler 后 ， 我 们 不 再 会 发 生 错误 ， 但 是 爬虫 速度 会 变 得 非 
常 慢 。 通 过 观察 发 现 ， 示 例 的 房产 信息 中 只 有 有 限 的 几 个 不 同位 置 。 这 
是 使 用 缓存 的 一 个 非常 好 的 机 会 。 我 们 可 以 使 用 一 个 简单 的 Python 字典 
来 实现 缓存 ， 不 过 这 种 情况 下 将 会 产生 苋 态 条 件 ， 导 致 不 正确 的 API 调 
用 。 下 面 是 一 个 没有 该 问题 的 缓存 ， 此 外 还 演示 了 一 些 Python 和 Twisted 
的 有 趣 特 性 。 

















class DeferredCache(object): 
def _ init__(self, key_not_found_callback): 
self.records = {} 
self.deferreds waiting = {} 
self.key_not_found_callback = key_not_found_callback 


@defer.inlineCallbacks 
def find(self, key): 
rv = defer.Deferred() 


if key in self.deferreds waiting: 
self.deferreds_ waiting[key].append(rv) 
else: 
self.deferreds waiting[key] = [rv] 


if not key in self.records: 
try: 
value = yield self.key_not_found_callback(key) 
self.records[key] = lambda d: d.callback(value) 
except Exception as e: 
self.records[key] = lambda d: d.errback(e) 


action = self.records[key] 
for d in self.deferreds waiting.pop(key): 
reactor.callFromThread(action, d) 


value = yield rv 
defer.returnValue(value) 





该 缓存 看 起 来 和 人 们 通常 期 望 的 有 些 不 同 。 它 包含 两 个 组 成 部 分 。 


e self.deferreds waiting : 这 是 一 个 延迟 操作 的 队列 ， 等 待 指 
定 键 的 值 。 
。 self.records: 这 是 已 经 出 现 的 键 -操作 对 的 字典 。 


WREAAFind() 实现 的 中 间 部 分 ， 就 会 发 现 如 果 没 有 

在 self.records 中 找到 一 个 键 ， 则 会 调用 一 个 预定 义 的 callback K 
数 ， 取 得 缺失 值 (yield self.key_not_found callback(key) ) 。 
该 回调 函数 可 能 会 抛 出 一 个 异常 。 我 们 要 如 何在 Python 中 以 紧凑 的 方式 
存储 这 些 值 或 异常 呢 ? 由 于 Python 是 一 种 函数 式 语 言 ， 我 们 可 以 根据 是 
否 出 现 异常 ， 在 self.records 中 存储 调用 延迟 操作 的 callback 

或 errback 的 小 函数 (lambda ) 。 在 定义 时 ， 该 值 或 异常 被 附加 

到 lambda 函数 中 。 函 数 中 对 变量 的 依赖 被 称 为 朵 包 ， 这 是 大 多 数 函 数 
式 编 程 语言 最 显著 和 强大 的 特性 之 一 。 














缓存 异常 有 些 不 太 常 见 ， 不 过 这 意味 着 如 果 在 第 一 次 查找 某 个 键 
时 ，key_not_found_callback(key) 抛 出 了 异常 ， 那 么 接 下 来 对 相同 键 再 
次 查询 时 仍然 会 抛 出 同样 的 异常 ， 不 需要 再 执行 额外 的 调用 。 
























































find() 实现 的 剩余 部 分 提供 了 避免 况 态 条 件 的 机 制 。 如 果 要 得 询 
的 键 已 经 在 进程 当中 ， 将 会 在 self.deferreds_waiting 字典 中 有 记 
录 。 在 这 种 情况 下 ， 我 们 不 再 额外 调用 key_not_found_callback() 
， 只 是 添加 到 延迟 操作 列表 中 ， 等 待 该 键 。 
当 key_not_found_callback() 返回 ， 并 且 该 键 的 值 变 为 可 用 时 ， 解 





发 每 个 等 竺 该 键 的 延迟 操作 。 我 们 可 以 直接 执行 action(d) ， 而 不 是 使 
AAA 和 不 过 这 样 就 必须 处 理 所 有 抛 出 的 异 
， 并 且 会 创建 一 个 不 必要 的 长 延迟 链 。 


使 用 缓存 非常 简单 。 只 需 在 _init_ () 中 对 其 初始 化 ， 并 在 执 
行 API 调用 时 设置 回调 函数 即 可 。 在 process_item() 中 ， 按 照 如 下 代 
码 使 用 缓存 。 


def _init__(self, stats): 
self.cache = DeferredCache(self.cache_key_not_found_callback) 


@defer.inlineCallbacks 

def cache_key_not_found_callback(self, address): 
yield self.throttler.enqueue() 
value = yield self.geocode(address) 
defer.returnValue(value) 


@defer.inlineCallbacks 

def process _item(self, item, spider): 
item["location"] = yield self.cache.find(item["address"][@]) 
defer.returnValue(item) 





本 例 的 完整 代码 包含 了 更 多 的 错误 处 理 代 码 ， 能 够 对 限 流 导致 的 错 
误 重 试 调用 一 个 简单 的 while 循环 ) ， 并 且 还 包含 了 更 新 爬虫 状态 的 
代码 。 


Q 
本 例 的 完整 代码 文件 地 址 
为 : ch09/properties/properties/pipelines/geo2.py 。 








想 启用 该 管道 ， 需 要 禁用 (注释 掉 ) 之 前 的 实现 ， 并 且 
oe 文件 的 ITEM_PIPELINES 中 添加 如 下 代码 。 





ITEM_PIPELINES = { 
"properties.pipelines.tidyup.TidyUp': 100, 
"properties.pipelines.es.EswWriter': 800, 


# DISABLE 'properties.pipelines.geo.GeoPipeline': 400, 
"properties.pipelines.geo2.GeoPipeline': 400, 








Kia, My A RU TRISTE. 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 15.8 items/s, avg latency: 1.74 s and avg time in pipelines: 


0.94 s 


Scraped... 32.2 items/s, avg latency: 1.76 s and avg time in pipelines: 


0.97 s 


Scraped... 25.6 items/s, avg latency: 0.76 s and avg time in pipelines: 


0.14 s 


: Dumping Scrapy stats:... 


"geo_pipeline/misses': 35, 


"item_scraped_count': 1019, 





可 以 看 到 ， 扑 取 延 时 最 初 由 于 填充 绥 存 的 原因 非常 高 ， 但 是 很 快 就 





回 到 了 之 前 的 值 。 统 计 显 示 总 共有 35 次 未 命中 ， 这 正 是 我 们 所 用 的 示例 
数据 集 内 不 同位 置 的 数量 。 显 然 ， 在 本 例 中 总 共有 1019 - 35 = 984 次 命 
中 缓存 。 如 果 使 用 真实 的 Google API， 并 将 每 秒 对 API 的 请 求 数量 稍微 
增加 ， 比 如 通过 将 Throttler(5) 改 为 Throttler(16) ， 把 每 秒 请 求 
数 从 5 增加 到 10， 就 会 在 geo_pipeline/retries 统计 中 得 到 重 试 的 记 
录 。 如 果 发 生 任何 错误 ， 比 如 使 用 API 无 法 找到 一 个 位 置 ， 将 会 抛 出 异 
第， 并 且 会 在 geo_pipeline/errors 统计 中 被 捕获 到 。 如 果 某 个 位 置 
的 坐标 已 经 被 设置 “后 面 的 小 节 中 看 到 ) ， 则 会 

在 geo_pipeline/already_set 统计 中 显示 。 最 后 ， 当 访问 
http://localhost:9200/ properties/ property/_search ， 碍 
看 房产 信息 的 ES 时 ， 可 以 看 到 包含 坐标 位 置 值 的 条 目 ， 比 如 
{..."location": {"lat": 51.5269736, "lon": 
-0.6667264}...}， 这 和 我 们 所 期 望 的 一 样 〈 在 运行 之 前 清理 集合 ， 
确保 看 到 的 不 是 旧 值 ) 。 


9.1.4 在 Elasticsearch 中 局 用 地 理 编码 索引 


既然 已 经 拥有 了 坐标 位 置 ， 现 在 就 可 以 做 一 些 事情 了 ， 比 如 根据 距 
离 对 结果 进行 排序 。 下 面 是 一 个 HITP POST 请 求 〈 使 用 curl 执行 ) ， 
返回 标题 中 包含 "Angel" 的 房产 信息 ， 并 按照 它们 与 点 {51.54，-6.19} 











的 距离 进行 排序 。 


$ curl http://es:9200/properties/property/_search -d '{ 


"query" : {"term" : { "title" : "angel" } }, 


"sort": [{"_geo_distance": { 


"location": {"lat": 51.54, "lon": -0.19}, 


"asc", 


"unit": "km", 


"distance_type": "plane" 





唯一 的 问题 是 当 和 尝试 运行 它 时 ， 会 发 现 运行 失败 ， 并 得 到 了 一 个 错 
误 信 息 : "failed to find mapper for [location] for geo 
distance based sort"。 这 说 明 位 置 字 段 并 不 是 执行 空间 操作 的 适当 
格式 。 要 想 设 置 为 合适 的 类 型 ， 则 需要 手动 重 写 其 默认 类 型 。 首 先 ， 将 
其 自动 检测 的 映射 关系 保存 到 文件 中 。 




















$ curl 'http://es:9200/properties/_mapping/property' > property.txt 


| | 
然后 编辑 property .txt 的 如 下 代码 。 


"location":{"properties":{"lat":{"type":"double"},"lon":{"type":"d 
ouble" }}} 





将 该 行 的 代码 修改 为 如 下 代码 。 


"location": {"type": "geo point"} 





另外 ， 我 们 还 删除 了 文件 尾部 的 {"properties":{"mappings": 
and two }} 。 对 该 文件 的 修改 到 此 为 止 。 现 在 可 以 按 如 下 代码 删除 旧 
类 型 ， 使 用 指定 的 模式 创建 新 类 型 。 


$ curl -XDELETE 'http://es:9200/properties ' 


$ curl -XPUT 'http://es:9200/properties ' 


$ curl -XPUT 'http://es:9200/properties/_mapping/property' --data 


@property.txt 











现在 可 以 再 次 运行 该 息 虫 ， 并 且 可 以 重新 运行 本 节 前 面 的 curl 命 
令 ， 此 时 将 会 得 到 按照 距离 排序 的 结果 。 我 们 的 搜索 返回 了 房产 信息 的 
JSON， 额 外 包含 了 一 个 sort 字段 ， 该 字段 的 值 是 到 搜索 点 的 距离 ， 单 








位 为 千 米 。 
9.2 ”与 标准 Python 客户 疹 建 立 数据 库 接 口 


有 很 多 重要 的 数据 库 遵 从 Python 数据 库 API 规 范 2.0 版 本 ， 包 括 
MySQL. PostgreSQL. Oracle. Microsoft SQL Server 和 SQLite。 它 们 的 
驱动 一 般 都 比较 复杂 且 久 经 考验 ， 如 果 为 Twisted 重 新 实现 的 话 则 是 已 
大 的 浪费 。 人 们 可 以 在 Twisted 应 用 中 使 用 这 些 数据 库 客户 端 ， 比 如 在 
Scrapy 使 用 twisted.enterprise.adbapi 库 。 我 们 将 使 用 MySQL 作 为 
示例 演示 其 使 用 ， 不 过 对 于 任何 其 他 兼容 的 数据 库 来 说 ， 也 可 以 应 用 相 
同 的 原则 。 


9.2.1 用 于 写 入 MySQL 的 管道 


MySQL 是 一 个 非常 强大 且 尝 行 的 数据 库 。 我 们 将 编写 一 个 省 道 ， 
将 item 写 入 到 其 中 。 我 们 已 经 在 虚拟 环境 中 运行 了 一 个 MySQL 实 例 。 现 
在 只 需 使 用 MySQL 命 令 行 工具 执行 一 些 基 本 管理 即 可 ， 同 样 该 工具 也 
己 经 在 开发 机 中 预 安装 好 了 ， 下 面 执行 如 下 操作 打开 MySQL 控 制 台 。 





$ mysql -h mysql -uroot -ppass 





这 将 会 得 到 MySQL 的 提示 符 ， 即 mysq> ， 现 在 可 以 创建 一 个 简单 
的 数据 库 表 ， 其 中 包含 一 些 字 段 ， 如 下 所 示 。 


mysql> create database properties; 
mysql> use properties 
mysql> CREATE TABLE properties ( 
url varchar(10@) NOT NULL, 
title varchar (30), 
price DOUBLE, 
description varchar(3@), 
PRIMARY KEY (url) 
)3 
mysql> SELECT * FROM properties LIMIT 10; 


Empty set (0.00 sec) 





非常 好 ， 现 在 拥有 了 一 个 MySQL 数 据 库 ， 以 及 一 张 名 
Aproperties 的 表 ， 其 中 包含 了 一 些 字段 ， 此 时 可 以 准备 创建 管道 
了 。 请 保持 MySQL 的 控制 台 为 开启 状态 ， 因 为 之 后 还 会 回来 检查 是 否 


H 


正确 插入 了 值 。 如 宋 想 退出 控制 合 ， 只 需要 输入 exit 即 可 。 


在 本 节 ， 我 们 将 会 向 MySQL 数 据 库 中 插入 房产 信息 。 如 果 你 想 擦 除 它 
们 ， 可 以 使 用 如 下 命令 : 




















mysql> DELETE FROM properties; 





我 们 将 使 用 Python 的 MySQL 客 尸 端 。 我 们 还 将 安装 一 个 名 为 dj- 
database-url 的 小 工具 模块 ， 帮 助 我 们 解析 连接 的 URL( 仪 用 于 为 我 
们 在 耳 、 端 口 、 密 码 等 不 同 设 置 中 切换 节省 时 间 ) 。 可 以 使 用 pip 
install dj-database-url MySQL-python 安装 这 两 个 库 ， 不 过 我 们 
己 经 在 开发 环境 中 安装 好 它们 了 。 我 们 的 MySQL 管 道 非常 简单 ， 如 下 
所 示 。 





from twisted.enterprise import adbapi 


class MysqlWriter(object): 


def _ init__(self, mysql_url): 
conn_kwargs = MysqlWriter.parse_mysql_url(mysql_url) 
self.dbpool = adbapi.ConnectionPool( 'MySQLdb' , 
charset='utf8', 
use_unicode=True, 
connect_timeout=5, 
**conn_kwargs) 


def close spider(self, spider): 


self.dbpool.close() 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
try: 
yield self.dbpool.runInteraction(self.do_ replace, item) 
except: 
print traceback.format_exc() 


defer.returnValue(item) 


@staticmethod 

def do_replace(tx, item): 
sql = """REPLACE INTO properties (url, title, price, 
description) VALUES (%s,%s,%s,%s)""" 


args = ( 

item[ "url" ][@][:100], 

item[ "title" ][e][:30], 

item[ "price" ]|[@], 

item[ "description" ][@].replace("\r\n", " ")[:30] 
) 


tx.execute(sql, args) 





Q 
本 示例 的 完整 代码 地 址 
为 che9/properties/properties/pipeline/mysql.py。 





本 质 上 ， 大 部 分 代码 仍然 是 模板 化 的 爬虫 代码 。 我 们 省 略 的 代码 用 
于 将 MYSQL_PIPELINE_URL 设置 中 包含 的 
mysql://user:pass@ip/database 格式 的 URL 人 解析 为 独立 参数 。 在 把 
虫 的 _init_() 中 ， 我 们 将 这 些 参数 传 给 
adbapi.ConnectionPool() ， 使 用 adbapi 的 基础 功能 初始 化 MySQL 


连接 池 。 第 一 个 参数 是 想 要 导入 的 模块 名 称 。 在 该 MySQL 示 例 中 ， 
为 MySQLdb 。 我 们 还 为 MySQL 客 户 端 设 置 了 一 些 额外 的 参数 ， 用 于 处 
理 Unicode 和 超时 。 所 有 这 些 参数 会 在 每 次 adbapi 需要 打开 新 连接 时 ， 
前 往 底层 的 MySQLdb .connect() 函数 。 当 疏 虫 关闭 时 ， 我 们 为 该 连接 
池 调 用 close() 方法 。 


我 们 的 process_item( ) 方法 实际 上 包装 了 
dbpool.runInteraction() 。 该 方法 将 稍 后 调用 的 回调 方法 放 入 队 
列 ， 当 来 自 连接 池 的 某 个 连接 的 Transaction 对 象 变 为 可 用 时 ， 调 用 
该 回调 方法 。Transaction 对 象 的 API 与 DB-API 游 标 相似 。 在 本 例 
中 ， 回 调 方法 为 do_replace() ， 该 方法 在 后 面 几 行进 行 了 定 
X. @staticmethod 意味 着 该 方法 指向 的 是 类 ， 而 不 是 具体 的 类 实 
例 ， 因 此 ， 可 以 省 略 平时 使 用 的 self 参数 。 当 不 使 用 任何 成 员 时 ， 将 
方法 静态 化 是 个 好 习惯 ， 不 过 即使 忘记 这 么 做 ， 也 没有 问题 。 该 方法 准 
备 了 一 个 SQL 字 符 串 和 几 个 参数 ， 调 用 Transaction 的 execute() 方 
法 执行 插入 。 我 们 的 SQL 语 句 使 用 了 REPLACE INTO 来 蔡 换 已 经 存在 的 
条 目 ， 而 不 是 更 常见 的 INSERT INTO ， 原 因 是 如 果 条 目 己 经 存在 ， 可 
以 使 用 相同 的 主键 。 在 本 例 中 这 种 方式 非常 便捷 。 如 果 想 使 用 SQL 返回 
数据 ， 如 SELECT 语句 ， 可 以 使 用 dbpool.runQuery() 。 如 果 想 要 修改 
默认 游标 ， 可 以 通过 设置 adbapi.ConnectionPool() 的 cursorclass 
参数 来 实现 ， 比 如 设置 cursorclass=MySQLdb.cursors.DictCursor 
， 可 以 让 数据 获取 更 加 便捷 。 























要 想 使 用 该 管道 ， 需 要 在 settings.py 文件 的 ITEM_PIPELINES 
字典 中 添加 它 ， 另 外 还 需要 设置 MYSQL_PIPELINE_URL 属性 。 


ITEM_PIPELINES = { ... 
"properties.pipelines.mysql.Mysqlwriter': 700, 


MYSQL_PIPELINE_URL = 'mysql://root:pass@mysql/properties' 





执行 如 下 命令 。 


scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 





EPAPIER: 





mysql> SELECT COUNT(*) FROM properties; 


| url | title | price | description 


| http://...@.html | Set Unique Family Well | 334.39 | website c 


| http://...1.html | Belsize Marylebone Shopp | 388.03 | features 


| http://...2.html | Bathroom Fully Jubilee S | 365.85 | vibrant own 


| http://...3.html | Residential Brentford Ot | 238.71 | go court 


4 rows in set (0.00 sec) 








延 时 和 吞吐 量 等 性 能 和 之 前 保持 相同 ， 相 当 不 错 。 


9.3 ”使 用 Twisted 专 用 客户 端 建立 服务 接口 


到 目前 为 止 ， 我们 看 到 了 如 何 通 过 treq 使 用 类 REST API. Scrapy 
还 可 以 和 许多 其 他 使 用 Twisted 专 用 客户 端的 服务 建立 接口 。 比 如 ， 我 
们 想 要 与 MongoDB 建 立 接口 ， 当 搜索 "MongoDB Python" 时 ， 将 会 得 
到 PyMongo ， 该 库 是 阻塞 /同步 的 ， 不 能 和 Twisted 一 起 使 用 ， 除 非 使 用 
后 续 小 节 中 的 方法 ， 在 管道 中 摘 述 线程 ， 处 理 阻 蹇 操作 。 如 采 搜 
索 "MongoDB Twisted Python"， 将 会 得 到 txmongo ， 该 库 可 以 在 Twisted 
和 Scrapy 中 完美 运行 。 通 常情 况 下 ，Twisted 客 户 端 背 后 的 社区 都 很 小 ， 
但 相 比 自行 编写 客户 端 ， 这 仍然 是 一 个 更 好 的 选择 。 我 们 将 使 用 一 个 类 
似 的 Twisted 专 用 客户 器 作 为 接口 ， 处 理 Redis 键 值 对 存储 。 


9.3.1 用 于 读 写 Redis 的 管道 


Google Geocoding API 是 按照 JP 进行 限制 的 。 我 们 可 以 利用 多 个 
IP《〈 例 如 使 用 多 人 台 服 务 器 ) 进行 缓解 ， 此 时 需要 避免 重复 请 求 其 他 机 器 
上 已 经 完成 地 理 编码 的 地 址 。 这 种 情况 也 适用 于 之 前 运行 中 曾 见 到 过 的 
地 址 。 我 们 不 想 浪 费 宝 吐 的 限额 。 





a a de gee ee 
你 可 能 必须 每 隔 几 分 钟 /小 时 就 要 丢弃 掉 绥 存 记 录 ， 或 者 根本 不 允许 缓存 。 
































我 们 可 以 使 用 Redis 的 键 值 对 缓存 ， 从 本 质 上 说 ， 它 是 一 个 分 布 式 
的 字典 。 我 们 已 经 在 vagrant 环 境 中 运行 了 一 个 Redis 实 例 ， 可 以 使 
用 redis-cli 命令 ， 从 开发 机 连接 它 并 执行 基本 操作 。 





$ redis-cli -h redis 


redis:6379> info keyspace 


# Keyspace 


redis:6379> set key value 


redis:6379> info keyspace 


# Keyspace 


db@:keys=1,expires=0,avg tt1=0 


redis:6379> FLUSHALL 


redis:6379> info keyspace 


# Keyspace 


redis:6379> exit 





通过 Google 搜 索 "Redis Twisted"， 我 们 找到 了 txredisapi fe. H 





本 质 区 别 是 它 不 再 是 同步 Python 库 的 包装 ， 而 是 适用 于 Twisted 的 库 ， 它 
使 用 reactor .connectTCP() 连接 Redis、 实 现 Twisted 协 议 等 。 使 用 该 
库 的 方式 与 其 他 库 类 似 ， 不 过 在 Twisted 应 用 中 使 用 它 时 ， 其 效率 肯定 
会 更 高 一 些 。 我 们 在 安装 它 时 可 以 再 附带 一 个 工具 库 

一 一 dj_redis_url， 该 工具 库 用 于 解析 Redis 配 置 URL， 我 们 可 以 使 
用 pip 进行 安装 (sudo pip install txredisapi dj redis url 

) ， 和 往常 一 样 ， 在 我 们 的 开发 机 中 也 已 经 预先 安装 好 了 这 些 库 。 





可 以 按 如 下 代码 初始 化 RedisCache 。 





from txredisapi import lazyConnectionPool 
class RedisCache(object): 


def _init__(self, crawler, redis_url, redis_nm): 
self.redis_ url = redis url 
self.redis_ nm = redis_nm 


args = RedisCache.parse redis_url(redis url) 

self.connection = lazyConnectionPool(connectTimeout=5, 
replyTimeout=5, 
**args) 


crawler.signals.connect( 
self.item_scraped,signal=signals.item_scraped) 





该 管道 非常 简单 。 为 了 连接 Redis 服 务 器 ， 我 们 需要 主机 地 址 、 端 
口 等 参数 ， 由 于 这 些 参数 是 以 URL 格 式 存 储 的 ， 因 此 需要 使 
用 parse_redis_url() 方法 解析 该 格式 〈 为 简洁 起 见 已 经 省 略 ) 。 为 
键 设置 前 级 作为 命名 空间 的 行为 非常 常见 ， 在 本 例 中 ， 我 们 将 其 存储 
在 redis_nm 中 。 然 后 ， 使 用 txredisapi 的 1azyConnectionPool() 
， 打 开 到 服务 器 的 连接 。 


最 后 一 行使 用 了 一 个 很 有 意思 的 函数 。 我 们 的 目的 是 将 地 理 编码 管 
道 与 该 管道 包装 起 来 。 如 果 在 Redis 中 没有 某 个 值 ， 我 们 将 不 会 设置 该 
值 ， 我 们 的 地 理 编码 管道 将 像 之 前 那样 使 用 API 对 地 址 进行 地 理 编码 。 
在 该 操作 完成 之 后 ， 需 要 有 一 种 方式 在 Redis 中 缓存 这 些 键 值 对 ， 在 这 
里 是 通过 连接 到 signals.item_scraped 信号 的 方式 实现 的 。 我 们 定 
义 的 回调 Citem_scraped() 方法 ， 将 很 快 看 到 ) 在 非常 靠 后 的 位 置 被 
调用 ， 此 时 坐标 位 置 将 会 被 设置 。 








人 


Q 


本 示例 的 完整 代码 位 于 
ch@9/properties/properties/pipelines/redis.py 。 


我 们 通过 查找 和 记录 每 个 Item 的 地 址 和 位 置 ， 保 持 了 缓存 的 简单 
性 。 这 对 Redis 来 说 是 很 有 意义 的 ， 因 为 它 经 第 运行 在 同一 个 服务 器 当 
中 ， 这 使 得 它 运 行 速度 非常 快 。 如 采 不 是 这 种 情况 ， 那 么 可 能 需要 添加 
一 个 基于 字典 的 缓存 ， 与 我 们 在 地 理 编 码 管道 中 的 实现 类 似 。 下 面 是 处 
理 传 入 的 Item 的 方法 。 




















@defer.inlineCallbacks 

def process_item(self, item, spider): 
address = item["address"][@] 
key = self.redis_nm + ":" + address 


value = yield self.connection.get(key) 
if value: 

item["location"] = json.loads(value) 
defer.returnValue(item) 





和 大 家 的 期 望 相同 。 我 们 得 到 了 地 址 ， 为 其 添加 前 级 ， 然 后 使 
用 txredisapi connection 的 get() 方法 在 Redis 中 查询 。 我 们 在 
Redis 中 存储 的 值 是 JSON 编 码 的 对 象 。 如 果 值 已 经 设 定 ， 则 使 用 JSON 对 
其 进行 解码 ， 并 将 其 设 为 坐标 位 置 。 


当 一 个 Item 到 达 所 有 管道 的 结尾 时 ， 我 们 重新 捕获 它 ， 确 保存 储 
到 Redis 的 位 置 值 当中 。 下 面 是 实现 代码 。 








from txredisapi import ConnectionError 


def item_scraped(self, item, spider): 
try: 
location = item["location" ] 
value = json.dumps(location, ensure_ascii=False) 
except KeyError: 
return 


address = item["address"][@] 


key = self.redis_nm + ":" + address 
quiet = lambda failure: failure.trap(ConnectionError ) 
return self.connection.set(key, value) .addErrback (quiet) 





这 里 同样 没有 什么 惊 言 。 如 果 我 们 找到 一 个 位 置 ， 就 可 以 得 到 地 
址 ， 为 其 添加 前 级 ， 并 使 用 它们 作为 键 值 对 ， 用 于 txredisapi 连接 的 
set() 方法 。 你 会 发 现 该 函数 没有 使 用 @defer.inlineCallbacks , 
这 是 因为 在 处 理 signals.item_scraped 时 并 不 支持 该 装饰 器 。 这 就 
意味 着 无 法 再 对 connection.set() 使 用 非常 便捷 的 yield 操作 ， 不 过 
我 们 可 以 做 的 工作 是 返回 延迟 操作 ，Scrapy 可 以 用 它 串联 任何 未 来 的 信 
号 进行 监听 。 无 论 何 种 情况 ， 如 果 到 Redis 的 连接 无 法 执 
行 connection.set() ， 就 会 抛 出 一 个 异常 。 可 以 通过 添加 自 定义 错误 
处 理 到 connection.set() 返回 的 延迟 操作 中 ， 静 默 忽 略 该 异常 。 在 该 
错误 处 理 中 ， 我 们 将 失败 作为 参数 传递 ， 并 告知 它们 对 任 
何 ConnectionError 执行 trap() 操作 。 这 是 Twisted 的 延迟 操作 API 的 
一 个 非常 好 用 的 功能 。 通 过 在 预期 的 异常 中 使 用 trap() ， 我 们 能 够 以 
紧凑 的 方式 静默 忽略 它们 。 


为 了 局 用 该 管道 ， 我 们 所 需 做 的 驶 是 将 其 添加 到 ITEM_PIPELINES 
设置 中 ， 并 在 settings.py 文件 中 提供 一 个 REDIS_PIPELINE_URL 。 
为 该 管道 设置 一 个 比 地 理 编 码 管道 更 小 的 优先 级 值 非常 重要 ， 和 否则 其 运 
行 就 会 太 迟 ， 无 法 起 到 作用 。 








ITEM_PIPELINES = { ... 
"properties.pipelines.redis.RedisCache': 300, 
"properties.pipelines.geo.GeoPipeline': 400, 


REDIS PIPELINE_URL = ‘redis://redis:6379' 





我 们 可 以 像 平 时 那样 运行 该 朴 虫 。 第 一 次 运行 将 会 和 之 前 类 似 ， 不 
过 接 下 来 的 每 次 运行 都 会 像 下 面 这 样 。 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=166 


INFO: Enabled item pipelines: TidyUp, RedisCache, GeoPipeline, 


MysqlWriter, EsWriter 


Scraped... @.@ items/s, avg latency: @.00 s, time in pipelines: 0.00 s 


Scraped... 21.2 items/s, avg latency: 0.78 s, time in pipelines: 0.15 s 


Scraped... 24.2 items/s, avg latency: 0.82 s, time in pipelines: 0.16 s 


INFO: Dumping Scrapy stats: {... 


"geo_pipeline/already_set': 106, 


"item_scraped_count': 106, 





可 以 看 到 GeoPipeline 和 RedisCache 都 已 经 启用 ， 并 且 


RedisCache 会 首先 进行 。 另 外 ， 还 可 以 注意 

到 geo_pipeline/already_set 统计 值 是 106。 这 些 是 GeoPipeline 从 
Redis 绥 存 中 找到 的 预先 填充 好 的 item， 并 且 它 们 都 不 需要 请 求 Google 
API 调 用 。 如 果 Redis 绥 存 为 空 ， 你 会 看 到 一 些 键 依然 会 使 用 Google API 
进行 处 理 。 在 性 能 方面 ， 我 们 注意 到 GeoPipeline 引 发 的 初始 行为 现在 没 
有 了 了。 实际 上 ， 由 于 目前 使 用 了 绥 存 ， 因 此 绕 过 了 每 秒 5 个 请 求 的 API 限 
制 。 当 使 用 Redis 时 ， 还 应 当 考 虑 使 用 过 期 键 ， 使 系统 可 以 周期 性 地 刷 
新 缓存 数据 。 


9.4 为 CPU 密集 型 、 阻 塞 或 遗留 功能 建立 接口 





本 章 最 后 一 节 讨论 的 是 访问 大 多 数 非 Twisted 的 工作 。 尽 管 有 高 效 
的 异步 代码 所 融 来 的 巨大 收益 ， 但 为 Twisted 和 Scrapy 重 写 每 个 库 ， 既 不 
现实 也 不 可 行 。 使 用 Twisted 的 线程 池 和 reactor.spawnProcess() 方 
法 ， 我 们 可 以 使 用 任何 Python 库 甚 至 其 他 语言 编写 的 二 进 制 包 。 





9.4.1 处 理 CPU 密 集 型 或 阻塞 操作 的 管道 


第 8 章 讲 到 ，reactor 对 于 简短 、 非 阻塞 的 任务 非常 理想 。 如 果 必 须 

要 执行 一 些 更 复杂 或 是 涉及 阻 罕 的 事情 ， 该 怎么 做 呢 ?Twisted 提 供 了 
线程 池 ， 可 以 使 用 reactor.callInThread() API 调 用 ， 在 一 些 线程 中 
执行 慢 操 作 ， 而 不 是 在 主线 程 中 执行 〈《Twisted 的 reactor) 。 这 了 就 意味 着 
reactor 会 持续 运行 其 处 理 过 程 ， 并 在 计算 发 生 时 响应 事件 。 请 注意 ， 在 
线程 池 中 的 处 理 不 是 线程 安全 的 。 这 就 是 说 当 你 使 用 全 局 状态 时 ， 又 会 
出 现 多 线程 编程 中 所 有 的 传统 同步 问题 。 让 我 们 从 该 管道 的 一 个 简单 版 
本 起 步 ， 逐 渐 编 号 出 完整 的 代码 。 








class UsingBlocking(object): 
@defer.inlineCallbacks 
def process_item(self, item, spider): 
price = item["price"][@] 


out = defer.Deferred() 
reactor.callInThread(self._do_ calculation, price, out) 


item["price"][@] = yield out 


defer.returnValue(item) 


def do _calculation(self, price, out): 
new_price = price + 1 
time.sleep(@.10) 
reactor.callFromThread(out.callback, new_price) 








在 前 面 的 管道 中 ， 我 们 看 到 了 实际 运行 的 基本 原 语 。 对 于 每 个 Item 
， 我 们 抽取 其 价格 ， 并 希望 使 用 do_calculation() 方法 处 理 它 。 该 
方法 使 用 了 一 个 阻塞 操作 time.sleep() 。 我 们 将 使 
用 reactor .callInThread() 调用 把 它 放 到 另 一 个 线程 中 运行 。 其 
中 ， 被 调用 的 函数 以 及 传 给 该 函数 的 任意 数量 的 参数 将 会 作为 参数 。 显 
然 ， 我 们 不 只 传递 了 price ， 还 创建 并 传递 了 一 个 名 为 out 的 延迟 操 
作 。 当 do_ calculation() 完成 计算 时 ， 我 们 将 使 用 out 回 调 返 回 
值 。 在 下 一 步 中 ， 我 们 对 这 个 延迟 操作 执行 了 yield 处 理 ， 并 为 价格 设置 
了 新 值 ， 最 后 返回 Item 。 


在 do calculation() 中 ， 注 意 到 有 一 个 简单 的 计算 一 一 价格 自 
增 1， 然 后 是 100 坚 秒 的 睡眠 。 这 是 非常 多 的 时 间 ， 如 果 在 reactor 线 程 中 
调用 ， 它 将 使 我 们 每 秒 处 理 的 页 数 无 法 超过 10 页 。 通 过 使 其 在 其 他 线程 
中 运行 ， 束 不 再 有 这 个 问题 了 。 任 务 将 会 在 线程 池 中 排队 ， 等 待 出 现 可 
用 的 线程 ， 一 旦 进入 线程 执行 ， 该 线程 就 将 睡眠 100 毫 秒 。 最 后 一 步 是 
触发 out 回调 。 正 常情 况 下 ， 可 以 使 用 out.callback(new_price)， 


不 过 由 于 现在 处 于 另 一 个 线程 中 ， 这 种 方法 不 再 安全 。 如 果 这 样 做 ， 会 
导致 延迟 操作 的 代码 和 Scrapy 的 功能 会 从 男 一 个 线程 调用 ， 人 述 早 会 出 现 
错误 的 数据 。 替 代 方 案 是 使 用 reactor.callFromThread() ， 同 样 ， 
也 是 将 函数 作为 参数 ， 并 将 任意 数量 的 额外 参数 传 到 函数 中 。 该 函数 将 
会 排队 ， 由 reactor 线 程 调用 ; 而 另 一 方面 ， 会 解除 process_item() 对 
象 yield 操作 的 阻塞 ， 为 该 Item 恢复 Scrapy 操 作 。 


如 果 有 全 局 状态 (比如 计数 器 、 移 动 平均 值 等 ) 的话， 那么 
在 _do_calculation() 中 使 用 它们 会 发 生 什 么 呢 ? 例如 ， 我 们 添加 两 
个 变量 一 一 beta 和 delta ， 如 下 所 示 。 
class UsingBlocking(object): 


def _init__(self): 
self.beta, self.delta = 6, © 


def do _calculation(self, price, out): 


self.beta += 1 

time.sleep(@.001) 

self.delta += 1 

new_price = price + self.beta - self.delta + 1 
assert abs(new_price-price-1) < 0.01 


time.sleep(@.10)... 








上 面 的 代码 存在 问题 ， 我 们 会 得 到 断言 错误 。 这 是 因为 如 果 一 个 线 
程 在 self.beta 和 self.delta 之 间 切 换 ， 而 另 一 个 线程 使 用 这 些 
beta/delta 的 值 恢复 计算 价格 ， 那 么 会 发 现 它 们 处 于 不 一 致 的 状态 

(beta 比 delta A) ， 因 此 ， 会 计算 出 错误 的 结果 。 短 暂 的 睡眠 使 该 
问题 更 容易 产生 ， 不 过 即便 没有 它 ， 竞 态 条 件 也 将 很 快 出 现 。 为 了 避免 
此 类 问题 有 发生， 必须 使 用 锁 ， 比 如 使 用 Python 的 threading.RLock( ) 

递归 锁 。 当 使 用 锁 时 ， 我 们 可 以 确信 不 会 存在 两 个 线程 同时 执行 其 保护 





的 临界 区 的 情况 。 


class UsingBlocking(object): 
def _init__(self): 


self.lock = threading.RLock() 


def do _calculation(self, price, out): 
with self.lock: 
self.beta += 1 


new_price = price + self.beta - self.delta + 1 


assert abs(new_price-price-1) < 0.01 ... 





前 面 的 代码 现在 是 正确 的 。 请 记 住 我 们 并 不 需要 保护 整 段 代码 ， 只 
需 履 盖 全 局 状态 的 使 用 就 够 了 。 


R 
本 示例 的 完整 代码 位 于 
ch09/properties/p``roperties/pipelines/computation. py 文件 





A, 








要 想 使 用 该 管道 ， 只 需 在 settings . py 文件 中 将 其 添加 
到 ITEM_PIPELINES 设置 即 可 ， 如 下 所 示 。 


ITEM_PIPELINES 


"properties.pipelines.computation.UsingBlocking': 500, 
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100 盈 秒 ， 不 过 我 们 惊喜 地 发 现 吞 吐 量 几乎 保持 不 变 ， 即 每 秒 25 个 item 
Atie 


9.4.2 ”使 用 二 进 制 或 脚本 的 管道 


对 于 一 个 遗留 功能 来 说 ， 最 不 可 知 的 接口 就 是 独立 的 可 执行 程序 或 
脚本 。 它 可 能 需要 几 秒 钟 时 间 启 动 〈 比 如 从 数据 库 中 加 载 数据 ) ， 不 过 
在 这 之 后 ， 它 可 能 会 在 一 小 段 延 时 内 处 理 许多 值 。 即 使 对 于 这 种 情况 ， 
Twisted 仍 然 能 够 覆盖 。 我 们 可 以 使 用 reactor .spawnProcess() API 以 
及 相关 的 protocol.ProcessProtocol 运行 任何 类 型 的 可 执行 程序 。 

来 看 一 个 例子 ， 该 示例 的 脚本 如 下 所 示 。 











#!/bin/bash 


trap "" SIGINT 


sleep 3 


while read line 


do 


# 4 per second 


sleep 0.25 


awk "BEGIN {print 1.20 * $line}" 


done 





这 是 一 个 简单 的 bash 脚 本 。 当 它 司 动 后， 会 茶 用 Ctrl + C 。 这 是 为 
了 解决 Ctrl + C 派生 到 子 进 程 后 过 早 终止 ， 导 致 Scrapy 目 身 无 法 停止 ， 
无 限 等 待 子 进程 返回 结果 的 系统 特性 。 蔡 用 Ctrl1 + C 后 ， 脚 本 将 会 睡 虐 
3 秒 钟 ， 以 异 拟 局 动 时 间 。 然 后 脚本 会 从 输入 中 读 取 行 ， 等 待 250 坚 秘 ， 
再 返回 结果 价格 ， 该 计算 使 用 Linux 的 awk 命令 将 原 值 乘 以 1.2 倍 。 该 脚 
本 的 最 大 吞吐 量 是 每 秒 4 个 Item 。 可 以 使 用 一 个 简短 的 会 话 对 其 进行 测 
试 ， 如 下 所 示 。 








$ properties/pipelines/legacy.sh 


12 <- If you type this quickly you will wait ~3 seconds to get results 


13 <- For further numbers you will notice just a slight delay 





由 于 Ctrl + C 被 禁用 ， 我 们 必须 使 用 Ctrl + D 终止 会 话 。 不 错 ! AD 
么 ， 我 们 要 如 何在 Scrapy 中 使 用 该 脚本 呢 ? 仍然 从 一 个 简化 的 版 本 起 


LV o 


class CommandSlot(protocol.ProcessProtocol): 


N 


def _ init (self, args): 
self. queue = [] 
reactor.spawnProcess(self, args[@], args) 


def legacy _calculate(self, price): 
d = defer.Deferred() 
self. queue. append(d) 
self.transport.write("%f\n" % price) 
return d 


# Overriding from protocol.ProcessProtocol 
def outReceived(self, data): 
""Called when new output is received""" 
self. queue.pop(@).callback(float(data)) 


class Pricing(object): 
def _init__(self): 
self.slot = CommandSlot(['properties/pipelines/legacy.sh' ]) 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
item["price"][@] = yield self.slot.legacy calculate(item["price"][@ 


defer.returnValue(item) 





我 们 可 以 在 这 里 找到 名 为 CommandSlot 的 ProcessProtocol 的 定 
义 ， 以 及 Pricing Me. Æ__init_ (0) 中 ， 我 们 创建 了 新 的 
CommandSlot ， 其 构造 方法 初始 化 了 一 个 空 队 列 ， 并 使 
用 reactor.spawnProcess() 启动 了 一 个 新 的 进程 。 该 调用 将 从 进程 
中 传输 和 接收 数据 的 ProcessProtocol 作为 第 一 个 参数 。 在 本 例 中 ， 
该 值 为 self ， 因 为 spawnProcess() 是 在 protocol 类 中 进行 调用 的 。 
第 二 个 参数 是 可 执行 程序 的 名 称 。 第 三 个 参数 args 将 该 二 进 制 程序 的 
所 有 命令 行 参数 作为 字符 串 列 表 保 留 





在 管道 的 process_item() 中 ， 基 本 上 将 所 有 工作 都 委托 给 
CommandSlot 的 legacy_calculate() 方法 ， 它 将 返回 一 个 延迟 操 


作 ， 并 执行 yield 操作 。legacy_calculate() 创建 了 一 个 延迟 操作 ， 
使 其 排队 ， 然 后 使 用 transport .write() 将 价格 写 入 到 进程 当 

H, transport 由 ProcessProtocol 提供 ， 用 于 让 我 们 和 进程 进行 通 
信 。 无 论 我 们 何 时 从 进程 中 接收 到 数据 ， 都 会 调用 outReceived() 。 
通过 延迟 操作 排队 ， 以 及 按 顺 序 处 理 的 shell 脚 本 ， 我 们 可 以 从 队列 中 只 
弹出 最 旧 的 延迟 操作 ， 使 用 接收 到 的 值 触 发 它 。 到 此 为 止 。 我 们 可 以 通 
过 在 ITEM_PIPELINES 中 添加 它 的 方式 ， 局 动 该 管道 ， 并 像 平 时 那样 运 
行 。 


ITEM_PIPELINES = {... 


"properties.pipelines.legacy.Pricing': 600, 





如 果 我 们 运行 一 次 ， 就 会 发 现 其 性 能 非常 糟糕 。 如 我 们 所 料 ， 我 们 
的 处 理 成 为 瓶 宽 ， 限 制 了 吞吐 量 只 能 达到 每 秒 4 个 Item。 要 想 增长 吞吐 
量 ， 我 们 所 能 做 的 就 是 对 管道 进行 一 些 修改 ， 人 允许 该 类 并 行 运行 多 个 ， 
如 下 所 示 。 











class Pricing(object): 
def _init__(self): 
self.concurrency = 16 
args = ['properties/pipelines/legacy.sh' ] 
self.slots = [CommandSlot(args) 
for i in xrange(self.concurrency) ] 
self.rr = 6 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
slot = self.slots[self.rr] 
self.rr = (self.rr + 1) % self.concurrency 
item["price"][@] = yield 
slot.legacy_calculate(item["price"][@]) 
defer.returnValue(item) 








我 们 将 其 修改 为 启动 16 个 实例 ， 并 以 轮 询 的 方式 为 每 个 实例 发 送 价 
格 。 该 管道 现在 提供 了 每 秒 16x4 = 64 个 item 的 吞吐 量 。 我 们 可 以 通过 一 
个 快速 朴 取 来 确认 ， 如 下 所 示 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1666 


. 0.0 items/s, avg latency: 0.00 s and avg time in pipelines: 


. 21.0 items/s, avg latency: 2.20 s and avg time in pipelines: 


. 24.2 items/s, avg latency: 1.16 s and avg time in pipelines: 





延 时 和 预期 一 样 ， 增 长 到 250 坚 秒 ， 不 过 吞吐 量 仍然 是 每 秒 25 个 


item. 





请 注意 ， 前 面 的 方法 中 使 用 了 transport.write() 将 shell 脚 本 输 
入 中 的 所 有 价格 排 入 队列 。 对 于 你 的 应 用 而 言 ， 这 种 方式 可 能 合适 ， 也 
可 能 不 合适 ， 尤 其 是 当 它 使 用 了 更 多 的 数据 而 不 仅仅 是 几 个 数字 时 。 本 
例 完 整 代 码 会 将 所 有 值 和 回调 排 入 队列 ， 并 且 只 有 在 前 一 次 结果 被 接收 




















后 ， 才 会 向 脚本 发 送 新 值 。 你 会 发 现 这 种 方式 对 你 的 遗留 应 用 更 加 友 
好 ， 不 过 也 增添 了 一 些 复杂 度 。 


9.5 ”本章 小 结 


本 章 讲解 了 一 些 复杂 的 Scrapy 管 道 。 到 目前 为 止 ， 我 们 已 经 学 习 了 
Twisted 编 程 方面 所 有 可 能 需要 的 内 容 ， 并 且 知 道 了 如 何 实现 进程 、 使 
用 Item 进 程 管道 等 复杂 功能 。 我 们 通过 在 延 时 和 吞吐 量 方面 添加 更 多 管 
道 阶 段 ， 看 到 了 性 能 是 如 何 变化 的 。 通 常情 况 下 ， 延 时 和 吞吐 量 被 认为 
是 成 反比 的 ， 不 过 这 是 建立 在 常数 并 发 的 假设 下 的 例如 线程 的 数 例 有 
限 〉。 在 我 们 的 例子 中 ， 我 们 从 N = S :T= 25 -0.77 2 19 开 始 ， 在 添加 
管道 后 ， 最 终 达 到 N = 25-3.33 2 83， 并 且 没 有 任何 性 能 问题 。 这 就 是 
Twisted 编 程 的 力量 ! 现在 我 们 可 以 进入 第 10 章 ， 使 Scrapy 的 性 能 更 加 完 
> 











第 10 瘟 ”理解 Scrapy 性 能 





通常 情况 下 ， 性 能 很 容易 出 现 问题 。 对 于 Scrapy 来 襄 ， 性 能 就 不 只 
是 容易 出 现 问 题 了 ， 而 是 几乎 肯定 会 出 现 ， 因 为 它 有 很 多 有 迟 常理 的 行 
为 。 除 非 你 对 Scrapy 内 部 有 非常 好 的 理解 ， 否 则 你 会 发 现 ， 即 使 非常 努 
力 地 优化 性 能 ， 也 很 可 能 得 不 到 收益 。 这 是 使 用 高 性 能 、 低 延迟 以 及 高 
并 发 环境 复杂 性 的 一 部 分 。 在 优化 瓶 贷 性 能 时 ， 阿 姆 达尔 定律 仍然 是 正 
确 的， 不 过 除非 你 能 指明 真正 的 瓶颈 所 在 ， 人 否则 在 系统 其 他 任何 部 分 的 
优化 都 无 法 增长 每 秒 能 够 抓 取 的 item 数 量 〈 吞 吐 量 ) 。 我 们 可 以 从 
Goldratt 博 士 经 典 的 The Goal 一 书 中 获得 更 多 的 感知 ， 这 本 商务 书籍 通 
过 优秀 的 隐喻 对 钵 颈 、 延 迟 和 吞吐 量 的 理念 进行 了 半 释 。 相 同 的 理念 同 
样 也 适用 于 软件 。 本 草 将 帮助 你 找 出 Scrapy 配 置 中 的 瓶颈 ， 以 及 避免 出 
现 明 显 的 错误 。 














请 注意 本 章 是 一 个 进 阶 章节 ， 其 中 会 涉及 一 些 数学 知识 。 计 算 将 会 
比较 简单 ， 并 且 会 附 有 用 于 展示 相同 概念 的 图 表 。 如 果 你 不 喜欢 数学 ， 
只 珊 忽 略 掉 公 式 即 可 ， 你 仍然 能 够 获得 Scrapy 性 能 如 何 工 作 的 重要 领 


悟 。 





10.1 Scrapy 引 党 一 一 一 种 直观 方式 


并 行 系统 看 起 来 与 管道 系统 很 相似 。 在 计算 机 科学 中 ， 我 们 使 用 队 
列 符号 来 表示 队列 以 及 处 理 中 的 元 素 〈( 见 图 10.1 左 侧 ) 。 队 列 系统 的 基 
本 法 则 是 利 特 尔 法 则 ， 该 法 则 认为 在 稳定 状态 下 ， 队 列 系统 中 的 元 素数 





N) 等 于 系统 吞吐 量 (T) 乘 以 总 排队 /服务 时 间 (S) ， 即 N = 工 : 








E 
S。 另 外 两 种 形式 是 : T= N/S 以 及 S = N/T， 在 计算 中 同样 有 用 。 
队列 理论 管道 
MWO = = = 
aE a —— 
z a =, 
E ite ihe 
N=8 R N=16 R N=32 R 
利 特 而 法 则 : N=T"S S=.25 s S=.25 s S=.25 s 
T=32 R/s T=64 R/s T=128 R/s 








fats 3 

















图 10.1 利 特 尔 法 则 、 队 列 系统 以 及 管道 


IP 


在 管道 的 几何 形状 中 也 有 相似 的 法 则 ( 见 图 10.1 右 侧 ) 。 管 道 容 量 
CV) 等 于 管道 长 上 度 L 乘 以 横 截面 面积 CA) ， 即 V =L:A。 

如 果 我 们 想象 长 度 表 示 服 务 时 间 (L~S) ， 容 量 表示 处 理 系 统 的 元 
AMS CV~N) ， 横 截面 面积 表示 吞吐 量 (A~N) ， 那 么 利 特 尔 法 则 
和 容量 公式 实际 是 相同 的 事情 。 














A 
这 个 类 比 有 道理 吗 ? 答案 是 差不多 。 如 果 我 们 将 工作 单位 想象 为 小 滴 液 
体 ， 以 恒定 速率 在 管道 内 部 移动 ， 那 么 L 一 S 绝 对 有 意义 ， 因 为 管道 越 长 ， 水 









































全 与 这 


滴 移 动 花费 的 时 间 越 多 。V~N 同 样 有 音义 ， 因 为 管道 越 大 ， 能 够 容纳 的 水 
滴 越 多 。 烦 人 的 是 ， 我 们 还 可 以 通过 施加 更 大 压力 的 方式 压 入 更 多 水 滴 。A 
一 T 是 不 太 满足 类 比 的 一 点 。 在 管道 中 ， 实 际 否 叶 量 ， 即 每 秒 进出 管道 的 水 
滴 数 量 ， 被 称 为 “体积 流量 >”， 除 非 满足 特定 条 件 〔 孔 口 》， 否 则 其 与 A 成 














































































































正比 ， 而 不 是 A。 这 是 因为 更 宽 的 管道 不 只 意味 着 有 更 多 的 液体 流出 ， 还 会 
使 液体 流动 更 快 ， 因 为 管 壁 之 间 存 在 更 大 的 空间 。 不 过 为 了 本 章 的 学 习 ， 我 
们 可 以 忽略 这 些 技术 细节 ， 而 是 假设 生活 在 一 个 理想 的 世界 中 ， 在 这 里 压力 





















































和 速度 都 是 常量 ， 并 且 吞 吐 量 与 横 截 面 面 积 直 接 成 正比 。 


























利 特 尔 法 则 和 这 个 简单 的 体积 公式 非常 相似 ， 这 就 使 得 该 管道 模 
型 "非常 直观 有 用 。 让 我 们 更 详细 地 看 一 下 图 10.1 中 的 示例 EN -B 
设 管道 系统 表示 Scrapy 的 下 载 器 。 第 一 个 非常 < 细 ? 的 下 载 器 ， 其 总 体积 / 
并 发 级 别 CON) 可 能 是 8 个 并 发 请 求 。 管 道 长 度 /延迟 (S) 对 于 一 个 快速 
的 网 站 来 说 ， 可 能 S=250ms。 在 给 定 N 和 S 时 ， 现 在 可 以 计算 处 理 元 素 的 
体积 /吞吐 量 ， 每 秒 请 求 数 为 T= N/S = 8/ 0.25 = 32。 











你 会 发 现 延 迟 经 常 是 我 们 无 法 控制 的 ， 因 为 它 依赖 于 远 端 服 务 器 的 
性 能 以 及 网 络 的 延迟 。 我 们 比较 容易 控制 的 是 下 载 嚣 中 并 发 (N) 的 级 
别 ， 可 以 将 其 从 8 增长 到 16 或 32 个 并 发 请 求 ， 即 10.1 图 中 的 第 二 个 和 第 
三 个 管道 。 对 于 常量 的 长 度 〈 超 出 我 们 控制 范围 之 外 ) ， 可 以 通过 只 增 
加 横 截 面 面 积 的 方式 增长 体积 ， 也 就 是 说 增加 吞吐 量 ! 按照 利 特 尔 法 
则 ，16 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 为 T= N/S = 16/0.25 = 
64 个 ， 而 在 32 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 是 T=N/S= 32/ 
0.25 = 128 个 。 太 好 了 ! 我 们 似乎 可 以 通过 增加 并 发 的 方式 ， 使 系统 无 
限 快 。 在 急于 得 出 这 样 的 结论 之 前 ， 还 需要 考虑 队列 系统 级 联 的 影响 。 





10.1.1 级 联 队 列 系统 


当 将 不 同 横 和 截面 面积 /吞吐 量 的 几 个 管道 依次 连接 起 来 时 ， 可 以 很 
直观 地 理解 整个 系统 的 流量 将 由 最 罕 鸭 《最 小 吞吐 量 : T) 管道 所 限制 
( 见 图 10.2) 。 














图 10.2 不 同 容量 的 级 联 队 列 系统 











你 还 可 以 观 穴 到 最 罕 管 道 《 即 瓶颈 ) 的 位 置 ， 决 定 了 其 他 管道 是 如 
何 “ 填 满 * 的 。 如 末 考 虑 到 与 系统 内 存 需 求 相关 的 填充 ， 就 会 意识 到 瓶颈 
的 位 置 是 非常 重要 的 。 我 们 最 好 通过 配置 保持 管道 充满 ， 且 单个 工作 单 
元 的 花 销 最 少 。 在 Scrapy 中 ， 一 个 工作 单元 〈 疏 取 一 个 页 面 ) 主要 是 由 
Petar HURL OLS) 以 及 下 载 后 的 URL 加 上 服务 器 啊 应 〈 较 
大 ) 组 成 。 























这 就 是 为 什么 在 Scrapy 系 统 中 ， 通 种 将 瓶颈 放置 在 下 载 器 中 。 














10.1.2 ”定义 瓶颈 


使 用 管道 系统 作为 类 比 的 一 个 非常 重要 的 好 处 是 ， 它 在 定义 瓶颈 的 
过 程 中 更 加 直观 。 如 果 观 察 图 10.2 就 会 发 现 ,“ 浇 贷 * 前 的 所 有 地 方 痢 是 


满 的 ， 而 之 后 的 所 有 地 方 都 不 是 。 





好 消 妃 是 ， 在 大 多 数 系统 中 ， 可 以 相对 容易 地 使 用 系统 度量 监控 队 
列 系 统 是 如 何 填 满 的 。 通 过 仔细 检查 Scrapy 的 队列 ， 我 们 可 以 了 解 瓶 颈 
在 什么 地 方 ， 如 宁 发 现 不 在 下 载 右 中 ， 则 可 以 调整 设置 让 其 变 为 下 载 
项 。 没 有 改善 瓶颈 的 任何 改进 都 不 会 带 来 吞吐 量 的 收益 。 如 果 修 改 系统 
其 他 部 分 ， 只 会 让 事情 变 得 更 糟 ， 很 有 可 能 将 瓶颈 转移 到 别 的 地 方 。 这 
个 感觉 有 点 像 退 尾 ， 可 能 需要 很 长 时 间 ， 并 且 会 令 你 感到 绝望 。 你 必须 
章 循 系统 方法 ， 定 义 瓶 宽 ， 并 且 需 要 在 修改 任何 代码 或 配置 之 前 , “ 知 
道 锤子 应 该 击 中 哪里 ”。 你 在 大 部 分 例子 中 《包括 本 书 的 大 多 数 例子 ) 
可 以 看 到 ， 瓶 颈 不 是 总 在 人 们 期 望 的 地 方 出 现 。 











10.1.3 ”Scrapy 性 能 模型 


让 我 们 回 到 Scrapy， 详 细 看 一 下 其 性 能 模型 〈 见 图 10.3) 。 





调度 器 
lenCengine.slot.scheduler.mqs) 
lenCengine.slot.scheduler.dqs) 


er’ http: ©. er?” — 限 流 器 
engine.scraper.slot.active_size 
F, 下 载 器 
len(engine.downloader.active) 


请 求 











CONCURRENT_REQUESTS 
CONCURRENT_REQUESTS_PER_DOMAIN 
CONCURRENT_REQUESTS_PER_IP 
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Item 处 理 管道 


engine.scraper.slot.itemproc_size 


ER 








图 10.3 ”Scrapy 性 能 模型 


Scrapy 包 含 如 下 组 成 部 分 。 


。 fas: 在 这 里 ， 多 个 请 求 会 排队 等 竺 下 载 器 处 理 。 它 们 主要 由 


URL 组 成 ， 因 此 会 十 分 紧凑 ， 这 就 意味 着 即使 拥有 大 量 URL 也 不 会 
对 系统 有 很 大 伤害 ， 并 且 可 以 让 我 们 在 传 入 不 规则 请 求 流 的 情况 下 


能 够 充分 利用 下 载 器 。 
o 限 流 器 : 这 是 抓 取 过 程 〈 大 储 水 池 ) 反馈 的 安全 | 阀 ， 如 果 正 在 执 


行 的 啊 应 的 总 计 大 小 超过 5MB， 那 么 它 会 让 前 往 下 载 右 的 后 续 请 求 


停止 。 这 可 能 会 导致 不 可 预料 的 性 能 起 伏 。 


。 Pekar: 这 是 Scrapy 关 于 性 能 最 重要 的 组 成 部 分 。 它 对 能 够 并 行 执 


行 的 请 求 的 数量 有 着 复杂 的 限制 。 其 延迟 〈 管 道 长 度 ) 等 于 远程 服 
ies 的 时 间 ， 加 上 所 有 网 络 /操作 系统 | 延 
。 我 们 可 以 调整 并 行 请 求 的 数量 ， 不 过 通常 情况 下 ， 我 们 几乎 无 

ae 下 载 器 的 容量 由 CONCURRENT_REQUESTS* 设置 限 

制 ， 我 们 将 会 很 快 看 到 。 

ER: 这 是 抓 取 过 程 中 将 啊 应 转 为 Item 和 后 续 请 求 的 部 分 。 同 时 
这 也 是 我 们 编写 的 部 分 ， 通 常情 况 下 ， 只 要 遵照 规则 ， 它 们 就 不 会 
是 性 能 瓶颈 

Item 管道 : 这 是 我 们 编写 的 代码 的 第 一个 分 。 我 们 的 爬虫 可 以 

对 每 个 请 求生 成 上 百 个 Item ， 同 一 时 刻 只 会 处 

理 CONCURRENT_ITEMS 个 。 该 值 十 分 重要 ， 因 为 假设 你 在 管道 中 要 

处 理 数据 库 访问 ， 那 么 使 用 默认 值 (100) 束 可 能 会 过 高 ， 从 而 在 

无 意 间 拖 垮 数据 库 。 


慌 虫 和 管道 都 应 该 使 用 异步 代码 ， 并 且 在 必要 时 引发 更 多 的 延迟 ， 
但 不 应 因此 成 为 瓶颈 。 极 少 情况 下 ， 我 们 的 爬虫 /管道 会 处 理 非常 繁重 
的 事情 。 如 果 发 生 此 种 情况 ， 那 么 服务 器 的 CPU 可 能 会 成 为 瓶颈 


10.2 ”使 用 telnet 获 得 组 件 利 用 率 


想 要 理解 Request/Item 流 是 如 何 通 过 管道 的 ， 我 们 不 会 真得 去 测 
量 流量 (尽管 这 可 能 会 是 一 个 很 棒 的 功能 ) ， 而 是 使 用 更 容易 的 方式 测 


量 Scrapy 的 每 个 处 理 阶段 中 存在 多 少 流 体 ， 
名 Request/Response/Item 。 





我 们 可 以 通过 Scrapy 运 行 的 Telnet 服 务 获 取 性 和 


ČI 
T 
给 
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使 用 telnet 命 令 连 接 到 6623 端口 。 然 后 ， 将 会 在 Scrapy 中 得 到 一 个 
Python 提示 符 。 需 要 小 心 的 是 ， 如 采 你 在 这 里 执行 了 某 些 阻塞 操作 ， 例 
如 time.sleep() ， 它 将 会 中 止 仆 虫 功能 。 内 置 的 est() 函数 可 以 打印 
出 一 些 感 兴趣 的 上 度量。 其 中 一 些 或 者 很 专用 ， 或 者 能 够 从 几 个 核心 度量 
推 类 出 来 。 在 本 章 剩 余部 分 只 会 展示 后 者 。 让 我 们 从 一 个 示例 运行 中 了 
解 它 们 。 当 运行 疏 虫 时 ， 可 以 在 开发 机 中 打开 第 二 个 终端 ， 通 过 telnet 
命令 连接 6623 端口 ， 并 运行 est() 。 





a 


本 章 代 码 位 于 ch16 目录 ， 其 中 本 例 位 于 ch16/speed 目录 。 


























在 第 一 个 终端 中 ， 运 行 如 下 代码 。 





$ pwd 


/root/book/ch10/speed 
$ 1s 


scrapy.cfg speed 


$ scrapy crawl speed -s SPEED _PIPELINE_ASYNC_DELAY=1 


INFO: Scrapy 1.0.3 started (bot: speed) 


现在 先 不 用 管 scrapy crawl ae 是 什么 ， 以 及 其 参数 表示 什 
2 


么 。 本 章 后 续 部 分 会 详细 解释 这 些 。 现 在 ， 在 第 二 个 终端 上 ， 运 行 如 下 


$ telnet localhost 6023 


>>> est() 


len(engine.downloader.active) 


len(engine.slot.scheduler.mqs) 


len(engine.scraper.slot.active) 


engine.scraper.slot.active_size : 117760 


engine.scraper.slot.itemproc_size 





然后 在 第 二 个 终端 按 下 Ctrl + 也 退 出 Telnet， 回 到 第 一 个 终端 ， 按 


下 Ctrl + CEEE. 


Q 
我 们 在 这 里 忽略 了 dqs 。 如 果 通 过 JOBDIR 设置 启用 了 持久 化 支持 的 


话 ， 还 会 得 到 非 零 的 dqs (len(engine.slot.scheduler.dqs) ) ， 你 需 
要 将 其 添加 到 mqs 的 大 小 中 ， 以 继续 后 续 分 析 。 











我 们 来 看 一 下 本 例 中 的 这 些 核心 度量 都 表示 什么 。mqs 表示 目前 在 
调度 器 中 还 有 很 多 等 待 〈4475 个 请 求 ) 。 还 可 
以 。len(engine.downloader.active) 表示 目前 有 16 个 请 求 正 在 下 载 
器 中 被 下 载 。 这 和 我 们 在 怜 虫 CONCURRENT_REQUESTS 设置 中 设 定 的 值 
相同 ， 所 以 此 处 非常 好 。1len(engine.scraper.slot.active) 告知 
我 们 正在 进行 抓 取 处 理 的 响应 有 115 个 。 通 过 
(engine.scraper.slot.active size) ， 我 们 知道 这 些 响应 大 小 总 
计 为 115kb。 在 这 些 响应 中 ， 有 105 个 Item 此 时 正在 通过 管道 处 理 ， 可 
VIJ (engine.scraper.slot.itemproc size) AEX, XMARA 
剩余 的 10 个 请 求 目前 正在 讨 虫 中 处 理 。 总 体 来 次 ， 我 们 可 以 看 出 瓶颈 似 
乎 在 下 载 器 中 ， 在 其 之 前 的 工作 队列 (mgs) 非常 庞大 ， 但 下 载 器 已 经 
moma; 而 在 其 之 后 ， 我 们 有 痢 数量 很 高 但 又 比较 稳定 的 任务 
《可 以 通过 多 次 执行 est() 来 确认 此 项 ) 。 























我 们 感 兴趣 的 另 一 个 信 上 对 象 ， 即 通常 在 爬 取 完成 后 打 
印 的 信息 。 我 们 可 以 在 Telnet 中 ， 通 过 stats .get_stats() ， 以 字典 的 
形式 在 任何 时 间 访 问 它 ， ae 过 p() 函数 打印 更 优雅 的 格式 。 





$ p(stats.get_stats()) 


{'downloader/request_bytes': 558330, 


"item_scraped_count': 2485, 





对 我 们 来 说 ， 目 前 最 感 兴趣 的 度量 是 item_scraped_count ， 它 可 
以 通过 stats.get_value('item_scraped_count ' ) 直接 访问 。 该 度 
量 告知 我 们 到 目前 为 止 有 多 少 item 已 经 被 抓 取 ， 它 应 当 以 系统 吞吐 量 
CItem / 秒 ) 的 速率 增长 。 


10.3 ”基准 系统 


为 了 第 10 章 ， 我 编写 了 一 个 简单 的 基准 系统 ， 可 以 让 我 们 在 不 同 场 
景 下 评估 性 能 。 该 系统 的 代码 比较 复杂 ， 你 可 以 
在 speed/spiders/speed.py 中 找到 它 ， 但 我 不 会 详细 讲解 该 代码 。 
该 系统 包含 如 下 功能 。 


。 我们 的 Web 服 务 器 上 http://localhost:9312/benchmark/... 
目录 的 处 理 器 。 可 以 通过 调整 URL 参 数 /Scrapy 设 置 控制 伪 站 点 的 结 


构 〈 见 图 10.4) 以 及 页 面 加 载 速度 。 无 需 担 心细 节 ， 我 们 很 快 融 会 
看 到 更 多 示例 。 现 在 ， 可 以 观察 
http://localhost:9312/benchmark/index?p=1 

与 http://1ocalhost: 9312/benchmark/ id:3/rr:5/index? 
p=1 的 区 别 。 第 一 个 页 面 加 载 时 间 在 半 秒 之 内 ， 并 且 每 个 详情 页 中 
有 一 个 条 目 ; 而 第 二 个 页 面 需要 5 秒 时 间 加 载 ， 但 每 个 详情 页 中 包 
— 我 们 还 可 以 疝 页 面 中 添加 一 些 隐藏 的 垃圾 数据 ， 使 其 
更 大 一 些 。 比 如 ，http://localhost:9312/ 
benchmark/ds:166/ detail?idð=0 。 默 认 情 况 下 (参见 
speed/settings.py ) ， 页 面 演 染 在 SPEED_T_RESPONSE = 
0.125 秒 内 ， 伪 站 点 包含 SPEED_TOTAL _ITEMS = 5666 个 Item 。 















€ Cc localhost:931 2/detail?id0=2 
[ie gEED ITEMS PER DETAIL 





localhost:9312/index?p=1 








useful info qv 







SPEED DETAILS PER_INDEX PAGE 
5 . I'm3 







.SPEED_ TOTAL_ITEMS 


- | Ihost:931... 5 
SPEED INDEX POINTAHEAD O Cae : 


1 <ul><li><h3>I'm 2</h3><div class="info">useful 
info for id: 2</div></li><li><h3>I'm 3</h3> 
<div class="info">useful info for id: 3</div> 
</li><li><h3>I'm 4</h3><div 
class="info">useful info for id: 4</div></li> 


</ul><!-- 


122111111111111111111111111i111111 


… SPEED DETAIL EXTRA SIZE 


图 10.4 我 们 的 基准 系统 创建 的 具有 可 调整 结构 的 伪 站 点 





。 [EESpeedSpider ， 通 过 控制 SPEED_START_REQUESTS_STYLE ix 
置 伪 造 一 些 获取 start_requests() 的 方式 ， 并 提供 了 一 个 简单 的 


parse_item() 方法 。 默 认 情 况 下 ， 我 们 使 
用 crawler.engine.crawl() 方法 直接 将 所 有 启动 URL 提 供给 
Scrapy 的 调度 器 。 

e 管道 DummyPipeline 伪造 一 些 处 理 。 它 包含 该 处 理 可 能 导致 的 4 种 
延迟 类 型 : 阻塞 /计算 /同步 延迟 
CSPEED_PIPELINE_BLOCKING_DELAY ， 这 是 一 种 不 好 的 方式 ) 、 
异步 延迟 (SPEED_PIPELINE_ASYNC_DELAY ， 这 是 一 种 可 以 接受 
的 方式 ) 、 使 用 treq 库 的 远程 API 调 用 
CSPEED_PIPELINE_API_VIA_TREQ ， 这 是 一 种 可 以 接受 的 方式 ) 
以 及 使 用 Scrapy 的 crawler .engine.download() 的 远程 API 调 用 
(SPEED_PIPELINE_API_VIA_DOWNLOADER ， 这 是 一 种 不 太 好 的 
方式 ) 。 默 认 情 况 下 ， 该 管道 不 会 添加 任何 延迟 。 

。 在 settings.py 中 包含 了 一 组 高 性 能 设置 。 所 有 可 能 会 造成 系统 
有 任何 减 慢 的 设置 都 已 经 被 禁用 。 由 于 我 们 只 访问 本 地 服务 器 ， 因 
此 针对 单 域名 请 求 数 的 限制 也 被 禁用 了 。 

。 与 第 8 章 类 似 的 少量 度量 捕获 扩展 。 它 将 周期 性 地 打印 出 核心 度量 
指标 。 











我 们 已 经 在 前 面 的 例子 中 使 用 了 该 系统 ， 不 过 主 我们 重新 运行 一 次 
模拟 ， 并 使 用 Linux 的 时 间 工 具 测 量 完 整 的 执行 时 间 。 可 以 在 如 下 代码 








中 看 到 被 打印 出 来 的 核心 度量 指标 。 





$ time scrapy crawl speed 


INFO: s/edule d/load scrape p/line done mem 


INFO: Q Q 0 0 0 (2 

INFO: 4938 14 16 0 32 16384 
INFO: 4831 16 6 (2 147 6144 
INFO: 119 16 16 © 4849 16384 
INFO: 2 16 12 @ 4970 12288 


real @m46.561s 


len(engine.slot.scheduler.mqs) 


d/load len(engine.downloader.active) 
len(engine.scraper.slot.active) 


p/line engine.scraper.slot.itemproc_size 





stats.get_value(‘item_scraped_count') 





engine.scraper.slot.active_size 


这 种 级 别 的 透明 度 是 非常 明显 的 。 我 缩短 了 列 名 ， 不 过 它们 应 该 仍 
然 能 够 清楚 说 明 人 含义。 初始 时 ， 在 调度 器 中 有 5000 个 URL， 而 在 结 
时 ， 完 成 列 中 也 有 5000 个 item。 下 载 器 作为 瓶颈 ， 已 经 被 充分 利用 ， 根 
据 设置 始终 会 有 16 个 活跃 的 请 求 。 抓 取 操作 主要 是 爬虫 ， 因 为 如 我 们 
fEp/line 列 所 见 ， 管 道 是 空 的 ， 由 于 它 通常 是 在 瓶颈 之 后 ， 因 此 虽然 
一 定 程 度 上 被 利用 了 ， 但 是 没有 充分 利用 。 抓 取 5000 个 Item 花费 了 46 
秒 的 时 间 ， 使 用 的 并 发 请 求 N = 16， 即 每 个 请 求 的 平均 时 间 是 46 . 16 / 
5000 = 147ms， 而 不 是 我 们 期 望 的 125ms， 不 过 这 也 还 可 以 接受 。 


10.4 标准 性 能 模型 





标准 性 能 模型 在 Scrapy 功 能 正常 上 且 下 载 喜 为 性 能 瓶 祷 时 成 芯 。 在 这 
种 情况 下 ， 可 以 在 调度 右 中 看 到 一 些 请 求 ， 而 在 下 载 器 中 则 是 并 及 请 求 
数 的 最 大 值 〈 见 图 10.5) 。 抓 取 程 序 〈 爬 虫 和 管道 ) 被 轻 度 加 载 ， 并 且 
处 理 中 的 啊 应 数 不 会 持续 增长 。 
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图 10.5 ”标准 性 能 模型 及 一 些 实验 结果 














有 3 个 主要 设置 用 于 控制 下 载 器 能 力 : CONCURRENT_REQUESTS 
、CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 其 中 第 一 个 是 粗 调 控制 。 无 论 如 何 
都 不 会 在 同一 时 间 有 超过 CONCURRENT_REQUESTS 数量 的 请 求 处 于 活跃 
状态 。 而 如 果 你 的 目标 是 单个 域名 或 相对 较 少 的 几 个 域 
名 ，CONCURRENT_REQUESTS_PER_DOMAIN 可 能 会 进一步 限制 活跃 请 求 
的 数量 。 如 果 设 置 了 CONCURRENT_REQUESTS_PER_IP ， 那 
么 CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 ， 此 时 有 效 的 限制 
将 会 是 针对 单个 (目标 IP 的 请 求 数 。 比 如 ， 当 目标 是 一 些 共享 主机 站 
点 时 ， 多 个 域名 可 能 会 指向 同一 台 服 务 器 ， 该 设置 可 以 帮助 你 不 会 过 度 
攻击 该 服务 器 。 





为 了 保持 现在 的 性 能 探索 尽 可 能 简单 ， 我 们 通过 
使 CONCURRENT_REQUESTS_PER_IP 保留 为 默认 值 0) 以 禁用 每 个 下 的 
限制 ， 并 且 设 置 CONCURRENT_REQUESTS_PER_DOMAIN 的 值 为 非常 大 的 
XUE (1000000) 。 这 样 的 组 合 可 以 有 效 禁用 针对 IP 和 域名 的 限制 ， 下 
载 器 的 并 发 数量 可 以 完全 由 CONCURRENT_REQUESTS 来 控制 。 





我 们 希望 系统 吞吐 量 依赖 于 下 载 页 面 所 花费 的 平均 时 间 ， 包 括 远程 
服务 器 部 分 以 及 我 们 的 系统 (Linux, Twisted/Python) 的 延迟 Ctyownload 
= tresponse + toverhead ) 。 如 采 能 够 考虑 一 些 启 动 和 结束 时 间 也 是 很 好 
的 。 它 包括 你 得 到 一 个 啊 应 的 时 间 与 其 Item 从 管道 另 一 端 出 来 的 时 间 之 
间 的 间隔 ， 以 及 在 缓存 冷 局 动 时 ， 你 得 到 第 一 个 啊 应 之 前 的 时 间 及 性 能 
较 差 时 的 时 间 。 








忆 之 ， 如 末 你 需要 完成 N 个 请 求 的 任务 ， 并 且 我 们 的 扑 虫 已 经 得 到 
了 适当 的 调整 ， 那 么 你 应 该 会 在 下 述 公式 所 得 的 时 间 内 完成 。 


1 l N i ( t, € sponse F tovi rhe ad ) t 
j% CONCURRENT_REQUESTS “a"/stop 





我 们 无 法 控制 这 些 参数 中 的 大 部 分 ， 这 多 少 让 人 有 些 遗 憾 。 我 们 可 
以 使 用 一 台 更 强大 的 服务 器 来 稍微 控制 tverneod ， 类 似 情况 还 有 kore/kseop 
《该 参数 几乎 不 值得 为 之 努力 ， 因 为 我 们 只 会 在 每 次 运行 时 才 会 花费 该 
时 间 ) 。 除 了 对 N 个 请 求 的 给 定 工 作 量 有 少许 改善 外 ， 我 们 所 能 细心 调 
整 的 数值 只 有 CONCURRENT_REQUESTS ， 它 通常 依赖 于 我 们 访问 远程 服 
务 器 的 困难 程度 。 如 果 我 们 将 其 设 定 为 一 个 非常 大 的 数值 ， 在 某 一 时 
刻 ， 会 使 服务 器 的 CPU 能 力 或 远程 服务 器 及 时 啊 应 的 能 力 达 到 饱和 ， 也 
就 是 说 ，tiosponse 将 会 突 增 ， 因 为 目标 网 站 对 我 们 实施 了 限 速 、 封 禁 ， 或 
者 我 们 造成 了 目标 网 站 宕 机 。 





让 我 们 运行 一 个 实验 来 检查 我 们 的 理论 。 我 们 将 以 fewonse E 
{0.125s, 0.25s, 05s}. CONCURRENT_REQUESTS € {8, 16, 32, 64} 的 条 件 疏 
取 2000 个 item， 如 下 所 示 。 


| 


$ for delay in 0.125 0.25 6.56; do for concurrent in 8 16 32 64; do 


time scrapy crawl speed -s SPEED TOTAL_ITEMS=2000 \ 


-S CONCURRENT_REQUESTS=$concurrent -s SPEED_T_RESPONSE=$delay 


done; done 





在 我 的 笔记 本 上 ， 完 成 2000 个 请 求 的 时 间 如 表 10.1 所 示 〈 以 秒 为 时 
AL) 
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CONCURRENT_REQUESTS 125ms/ 请 求 | 250ms/ 请 求 | 500ms/ 请 求 








和 警告: 接 下 来 将 会 是 令 人 讨厌 的 计算 ! 你 可 以 略 读本 段 内 容 。 我 
们 可 以 在 图 10.5 中 看 到 部 分 结果 。 通 过 重新 排列 最 后 的 公式 ， 我 们 可 以 
将 其 转换 为 更 加 简单 的 形式 〈 即 y = tovernead ` X + tstarystop ， 基 中 x=N/ 


CONCURRENT_REQUESTS 和 y = tjop ` X + tresponse ) 。 使 用 最 小 二 乘法 

CExcel 函 数 为 LINEST ) 和 前 面 的 数据 ， 我 们 可 以 计算 得 到 tverneaa = 

6ms， 而 fstarystop = 3-180 toverhead 是 一 个 很 小 的 数值 ， 而 启动 时 间 却 非常 

显著 ， 不 过 它 支 持 了 数 和 干 个 URL 的 长 时 间 运 行 。 因 此 ， 我 们 将 使 用 一 个 

非常 有 用 的 公式 ， 以 请 求 数 / 秒 为 单位 近似 系统 的 吞吐 量 ， 如 下 上 所 示 。 
N 


t job — tstar t/stop 





通过 运行 N 个 请 求 的 长 时 间 任 务 ， 我 们 可 以 测量 出 op 的 汇总 时 
间 ， 然 后 直接 计算 T。 


10.5 解决 性 能 问题 


现在 我 们 应 当 对 系统 预期 拥有 的 性 能 是 什么 有 了 充分 的 了 解 ， 接 下 
来 看 一 下 如 果 没 有 得 到 想 要 的 性 能 时 应 当 如 何 操作 。 我 们 将 通过 探讨 具 
体 症 状 来 展示 不 同 的 问题 案例 ， 执 行 示例 爬虫 进行 复 现 ， 探 讨 根本 原 
因 ， 最 终 提供 解决 问题 的 操作 。 案 例 展 示 的 顺序 从 系统 顶层 问题 逐步 到 
低层 次 的 Scrapy 技 术 细 。 这 就 意味 着 更 普 过 的 案例 可 能 会 出 现在 没 那 
么 常见 的 案例 之 后 。 在 探索 你 的 性 能 问题 之 前 ， 请 完整 阅读 本 章 全 部 入 


F 


容 。 














10.5.1 ”案例 #1: CPU 饱和 


症状 : 在 某 些 情况 下 ， 你 增加 了 并 发 级 别 ， 但 没有 得 到 性 能 提 
升 。 当 降低 并 发 级 别 时 ， 一 切 工作 再 次 回归 预期 〈《 见 图 10.6) 。 你 的 下 
载 器 可 以 被 充分 利用 ， 但 是 似乎 每 个 请 求 的 平均 时 间 出 现 了 激增 。 当 在 
UNIX/Linux 系 统 中 使 用 top 命令 、 在 Power Shell 中 使 用 ps 命令 或 在 





oer 使 用 任务 管理 器 查看 CPU 人 负载 如 何 时 ， 会 发 现 CPU 负 载 非常 


Ez ae URL 
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图 10.6” 当 并 发 增长 到 一 定 程度 后 ， 性 能 趋 于 平 绥 








示例 ， 假设 运行 了 如 下 命令 。 


$ for concurrent in 25 50 100 150 200; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=5ee0e \ 


-S CONCURRENT_REQUESTS=$concurrent 


done 





你 得 到 了 其 抓 取 5000 个 UREL 的 时 间 。 在 表 10.2 中 ， 期 望 值 一 列 是 基 
于 前 面 得 到 的 公式 计算 所 得 ， 而 CPU 负载 是 通过 top 命令 观察 得 到 的 
《可 以 在 开发 机 中 使 用 第 二 个 终端 运行 该 命令 ) 。 


表 10.2 





期 望 值 | 实际 值 | 期 望 值 与 实际 值 的 | CPU 负 


CONCURRENT_REQUESTS 








在 我 们 的 实验 中 ， 由 于 几乎 不 执行 任何 处 理 ， 因 此 能 够 得 到 高 并 
发 。 而 在 一 个 更 复杂 的 系统 中 ， 很 可 能 会 更 早 地 看 到 该 行为 。 


讨论 :， Scrapy 重 度 使 用 单一 线程 ， 当 达到 很 高 级 别 的 并 发 时 ，CPU 

可 能 会 成 为 瓶颈 。 假 设 不 使 用 任何 线程 池 ， 那 么 Scrapy 应 当 使 用 的 CPU 

负载 建议 在 80% 一 90%。 请 记 住 你 可 能 在 其 他 系统 资源 上 遇 到 相似 的 问 

题 ， 比 如 网 络 带 宽 、 内 存 或 磁盘 吞吐 量 ， 不 过 这 些 都 很 少见 ， 并 且 会 落 
入 通用 系统 的 管理 范畴 ， 因 此 就 不 在 这 里 进一步 强调 了 。 





解决 方案 : 通常 假设 你 的 代码 是 有 效 的 。 你 可 以 通过 在 同一 台 服 
务 器 上 运行 多 个 Scrapy 爬 虫 ， 以 使 总 计 并 发 超过 
CONCURRENT_REQUESTS。 这 可 以 帮助 你 利用 更 多 可 用 核心 ， 尤 其 





古 当 管道 的 其 他 服务 或 其 他 线程 不 使 用 它们 的 时 候 。 如 果 需 要 更 多 的 并 
发 ， 可 以 使 用 多 台 服 务 器 (参见 第 11 章 ) ， 这 种 情况 下 可 能 还 需要 更 多 
可 用 的 资金 、 网 络 带宽 以 及 磁盘 吞吐 量 。 始 终 检 查 CPU 利 用 率 是 你 的 首 
要 约束 。 





10.5.2 ”案例 #2: 代码 阻塞 


症状 : 你 所 观察 到 的 行为 无 法 说 通 。 和 期 望 值 相 比 ， 系 统 非 常 
慢 ， 并 且 奇 怪 的 是 ， 即 使 当 你 改变 CONCURRENT_REQUESTS 的 值 时 ， 速 
度 也 没有 显著 变化 〈 见 图 10.7) 。 下 载 器 看 起 来 总 是 空 的 〈 少 于 
CONCURRENT_REQUESTS ) ， 而 抓 取 程 序 却 有 不 少 响 应 。 











CONCURRENT_REQUESTS = 1 (?!) 

















图 10.7 阻塞 代码 以 不 可 预测 的 方式 使 并 发 无 效 





示例 : 你 可 以 使 用 两 个 基准 设 
置 : SPEED SPIDER_BLOCKING_DELAY 和 
SPEED_PIPELINE_BLOCKING_DELAY (它们 具有 相同 的 效果 ) ， 对 每 个 
啊 应 局 用 一 个 100ms 的 阻 罕 。 在 给 定 并 发 级 别 时 ， 我 们 期 望 100 个 URL 应 
当 花 费 2 一 3 秒 ， 但 无 论 CONCURRENT_REQUESTS 的 值 是 多 少 ， 我 们 总 是 
需要 花费 大 约 13 秒 的 时 间 ( 见 表 10.3) 。 


| 


for concurrent in 16 32 64; do 


time scrapy crawl speed -s SPEED TOTAL_ITEMS=100 \ 


-S CONCURRENT_REQUESTS=$concurrent -s SPEED _SPIDER_BLOCKING_DELAY=0.1 


done 
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CONCURRENT_REQUESTS AAR Ta] (Pb) 





讨论 : 任何 阻塞 代码 都 会 立即 抵消 挤 Scrapy 的 并 发 性 ， 本 质 上 相当 
于 设置 CONCURRENT_REQUESTS = 1。 根 据 上 面 的 简单 公式 ，100URL - 
100ms《 阻 蹇 延迟 ) = 10 秒 + tsarvstop ， 充 分 解释 了 我 们 所 看 到 的 延迟 。 


无 论 阻 蹇 代码 是 在 管道 中 还 是 在 爬虫 中 ， 你 都 会 发 现 抓 取 程序 可 以 
被 充分 利用 ， 但 其 前 后 的 模块 都 是 空 的。 这 看 起 来 违背 了 前 面 讲 过 的 管 
道 的 物理 现象 ， 不 过 由 于 我 们 已 经 不 再 拥有 一 个 并 发 系统 了 ， 所 以 管道 
规则 不 再 适用 。 该 错误 非常 容易 发 生 《 比 如 使 用 阻 豆 API) ， 你 一 定 会 








在 菏 一 时 刻 出 现 该 错误 。 你 会 注意 到 类 似 的 讨论 同样 适用 于 复杂 代码 的 
计算 。 你 应 当 为 此 类 代码 使 用 多 线程 ， 正 如 我 们 在 第 9 章 中 所 看 到 的 ; 
或 者 是 在 Scrapy 之 外 进行 批量 处 理 ， 我 们 将 会 在 第 11 章 中 看 到 一 个 相关 
示例 。 


解决 方案 : 将 假设 你 继承 了 基 人 代码， 并 且 不 清楚 阻塞 代码 位 于 何 

es 没有 任何 管道 的 情况 下 仍然 可 以 工作 ， 那 么 禁 
， 并 检查 是 否 仍 存 在 奇怪 的 行为 。 如 果 仍 存在 ， a 

ae 如 采 不 再 存在 ， 那 么 依次 启用 管道 ， 观 察 问 题 是 否 开 始 出 现 。 
如 果 该 系统 在 缺少 任何 运行 中 的 模块 的 情况 下 无 法 正常 运转 ， 那 么 可 以 
在 每 个 管道 阶段 的 功能 之 间 添 加 一 些 日 志 消 息 ( 或 插入 虚拟 管道 打印 时 
EER 。 通 过 检查 日 志 ， 可 以 轻松 检测 出 系统 在 什么 地 方 花费 了 最 多 的 
时 间 。 如 果 硕 望 有 一 个 更 加 长 期 /可 复 用 的 解决 方案 ， 可 以 使 用 虚拟 管 
道 跟 踪 你 的 请 求 ， 在 Request 的 meta 字段 中 为 每 个 阶段 添加 时 间 惟 。 
最 后 ，hook 到 item_scraped 信号 ， 并 记录 时 间 戳 日志。 一旦 你 发 现 阻 
塞 代 码 ， 则 应 将 其 转换 为 Twisted/ 异 步 代 码 ， 或 使 用 Twisted 的 线程 池 。 
如 有 果 想 要 但 看 该 转换 的 效果 ， 可 以 
将 SPEED_PIPELINE_BLOCKING_DELAY 蔡 换 为 SPEED 
PIPELINE_ASYNC_DELAY ， 重 新 运行 前 面 的 示例 。 性 能 的 变化 将 十 分 
惊人 。 




















10.5.3 ”案例 #3: 下 载 器 中 的 “垃圾 ” 


症状 : 你 得 到 的 吞吐 量 低 于 预期 。 下 载 器 看 起 来 有 时 会 有 比 
CONCURRENT_REQUESTS 更 多 的 请 求 。 








示例 : 模拟 以 0.25 秒 啊 应 时 间 的 情况 下 载 1000 个 页 面 。 按 照 默 认 的 





16 个 并 发 ， 根 据 公 式 需 要 花费 大 约 19 秒 的 时 间 。 我 们 使 用 一 个 管道 ， 

用 crawler.engine.download() 制造 到 伪造 API 的 额外 HTTP 请 求 ， 其 
啊 应 时 间 在 1 秒 之 内 。 你 可 以 通过 http:// 
localhost:9312/benchmark/ar:1/api?text=hello 进行 尝试 ( 见 
图 10.8) 。 让 我 们 运行 一 个 息 取 程序 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_ 


DOWNLOADER=1 


s/edule d/load scrape p/line done mem 


© 32768 


32 32 32768 


real @m55.151s 
























—) 下 载 器 | ”管道 
1000 URL | P 
7 a) 16 input requests run in the > 
downloader taking 250ms each > 
; l > 
T CONCURRENT_REQUESTS= 16 a 
al b) As soon as they complete we DD => 
| pull 16 more and the first ones gP > 
a | move to the pipeline which injects > -> 
om | 16 "spurious" 1-sec API requests. > > 
aE c) As soon as the second batch is 
三 | | 19 Item/ Pb completes (250ms later), we use 
上- 一 | the downloader entirely for API PP PDP 
一 | LY > requests. The system doesn't SS => 
process further input requests +4 > 
unless the downloader has less Ai e P 


( 期 望 值 : 62 ltem/ 秒 ) than 16. Throughput is defined by | ii 


the 1-sec latency of API requests. 


图 10.8 ”由 虚假 API 请 求 数 定 义 的 性 能 


非常 奇怪 ! 我 们 的 任务 不 但 花费 了 预期 的 3 倍 时 间 ， 还 超出 了 下 载 
器 定义 的 CONCURRENT_REQUESTS 所 设 定 的 16 个 活跃 请 求 数 Cd/load 
) 。 下 载 器 显然 是 瓶颈 ， 因 为 它 在 超 负 和 荷 工作 。 我 们 重新 运行 朴 取 程 
序 ， 并 在 另 一 个 控制 台中 打开 到 Scrapy 的 telnet 连 接 。 之 后 ， 就 可 以 查看 
下 载 器 中 有 哪些 请 求 是 活跃 的 了 。 


$ telnet localhost 6023 


>>> engine.downloader.active 


set([<POST http: //web:9312/ar:1/ti:1000/rr:0.25/benchmark/api>, ... ]) 








看 起 来 它 处 理 的 大 部 分 是 API 请 求 ， 而 不 是 下 载 正常 页 面 。 


讨论 : 你 可 能 会 认为 没有 人 使 用 crawler.engine.down1load() 
， 因 为 它 看 起 来 会 比较 复杂 ， 不 过 它 在 Scrapy 的 基 代 码 中 使 用 了 两 次 ， 
分 别 是 robots .txt 中 间 件 和 多 媒体 管道 。 因 此 ， 当 人 们 需要 使 用 Web 
API 时 ， 它 也 会 被 推荐 为 一 种 解决 方案 。 因 为 使 用 它 要 比 使 用 阻 奢 API 
更 好 ， 比 如 我 们 在 前 面 章节 中 看 到 的 流行 的 Python 包 requests ; 而 
有 旦 ， 使 用 它 还 会 比 理解 Twisted 编 程 和 使 用 treq 简单 一 些 。 现 在 既然 有 
了 咱们 这 本 书 ， 这 些 就 不 再 是 使 用 它 的 借口 了 。 男 一 方面 ， 该 错误 非常 
难 调 试 ， 所 以 应 当 在 研究 性 能 时 主动 检查 下 载 器 中 的 活跃 请 求 。 如 果 发 
现 API 或 多 媒体 URL 不 是 你 爬 取 的 直接 目标 ， 那 么 就 意味 着 某 些 管道 使 
Fa Į crawler.engine.download() 来 执行 HITP 请 求 。 由 于 我 们 的 
CONCURRENT_REQUESTS 限制 不 适用 于 这 些 请 求 ， 也 就 意味 着 我 们 很 可 
能 看 到 下 载 器 加 载 的 请 求 数 超过 CONCURRENT REQUESTS, FAEK 
有 些 了 矛盾。 除非 虚假 请 求 数 降低 到 CONCURRENT REQUESTS LF, A 
则 调度 器 不 会 获取 新 的 正常 页 面 请 求 。 











因此 ， 我 们 从 系统 中 得 到 的 否 吐 量 相当 于 原始 请 求 持续 1 秒 (API 延 
WR) ， 而 不 是 0.25 秒 (页 面 下 载 延 运 ) 的 吞吐 量 不 是 一 种 巧合 。 这 种 情 
况 特别 容易 令 人 困惑 ， 因 为 除非 API 调 用 比 页 面 请 求 慢 ， 否 则 我 们 不 会 
注意 到 任何 性 能 下 降 。 





解决 方案 : 我 们 可 以 使 用 treq 代替 
crawler.engine.download() 来 解决 该 问题 。 你 将 发 现 这 会 使 抓 取 程 
序 的 性 能 突 增 ， 这 对 于 API 架 构 来 说 可 能 是 个 坏 消息 。 我 将 从 一 个 低 数 
值 的 CONCURRENT_REQUESTS 开 始 ， 逐 渐 增 长 以 确保 不 会 使 API 服 务 


下 面 是 和 前 面相 同 的 运行 示例 ， 不 过 这 次 使 用 了 treq 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_TREQ=1 


s/edule d/load scrape p/line done mem 


@ 49152 


64 32 66560 


52 96 66560 


real @m19.922s 





你 会 发 现 一 个 非常 有 趣 的 事情 。 管 道 Cp/line) 似乎 包含 比 下 载 
器 (d/load) 更 多 的 条 目 〈 见 图 10.9) 。 这 种 情况 非常 好 ， 并 且 了 解 
其 原因 也 很 有 趣 。 
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9 CONCURRENT_REQUESTS= 16 


250 ms/req == 


N=16 req 一 F 
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图 10.9 ”拥有 长 管道 非常 完美 (在 Google 图 片 中 查看 “industrial heat exchanger” ) 











下 载 器 如 预期 一 样 ， 充 分 加 载 了 16 个 请 求 。 也 就 是 说 ， 系 统 吞 吐 量 
为 T=N/S=16/0.25= 64 个 请 求 / 秒 。 我 们 可 以 通过 观察 done 列 的 增长 
进行 确认 。 To 费 0.25 秒 ， Wd 
求 ， 它 会 在 管道 中 花费 1 秒 的 时 间 。 这 意味 着 在 管道 中 〈p/line〉， 我 们 
期 望 看 到 平均 N = T-S = 64.1 = 64 个 Item。 非 常 好 。 这 表示 现在 管道 有 瓶 
ME? 不 ， 因 为 我 们 没有 限制 同时 在 管道 中 处 理 的 响应 数量 。 只 要 数值 
不 是 无 限 增加 ， 就 能 够 很 好 地 运行 。 在 下 一 节 中 ， 我 们 将 看 到 更 多 关于 
这 个 问题 的 讨论 。 


10.5.4 ”案例 #4: 大 量 啊 应 或 超 长 啊 应 造成 的 洲 出 


症状 : 下 载 右 几乎 满 负荷 运转 ， 并 且 一 段 时 间 后 关闭 。 该 模式 不 
WER. HEEF H A AAEH KIR a o 














示例 : 此 处 我 们 使 用 了 和 前 面 一 样 的 设置 〈 使 用 了 treq ) ， 不 过 
响应 会 比较 大 ， 大 约 是 120KB 的 HTML。 如 你 所 见 ， 此 时 花费 了 31 秒 的 


时 间 完 成 ， 而 不 是 20 秒 左右 〈( 见 图 10.10〉。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_TREQ=1 


-S SPEED_DETAIL_EXTRA_SIZE=120000 


s/edule d/load scrape p/line done 


© 3842818 


4203080 


4923608 


5764224 


5524048 


real 6m36 .611s 
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讨论 : 我 们 可 能 会 天 真 地 尝试 将 这 种 延迟 解释 为 “创建 、 传 输 、 处 
理 页 面 需要 花费 更 多 时 间 ”， 不 过 这 并 不 是 此 处 发 生 的 情况 。 此 处 有 一 
个 便 编 码 〈 编 写 代 码 时 写 入 ) 的 对 请 求 总 大 小 的 限 
fill: max_active_size = 5000000。 假 设 每 个 请 求 的 大 小 等 于 其 请 求 体 
的 大 小 ， 并 且 至 少 是 1KB。 





一 个 重要 的 细 贡 是 ， 该 限制 可 能 是 Scrapy 最 巧妙 且 本 质 的 机 制 ， 用 
于 防止 过 慢 的 爬虫 或 管道 。 如 果 你 的 任何 一 个 管道 的 吞吐 量 比 下 载 器 的 
吞吐 量 更 慢 ， 节 终 就 会 发 生 这 种 情况 。 当 管道 处 理 时 间 过 长 时 ， 即 使 很 
小 的 请 求 ， 也 很 容易 触发 该 限制 。 下 面 是 一 个 管道 超 长 的 极端 案例 ，80 
秒 之 后 就 会 开始 产生 问题 。 














$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=10000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_PIPELINE_ASYNC_DELAY=85 











解雇 方案: 对 于 已 存在 的 基础 架构 ， 针 对 该 问题 几乎 无 计 可 施 。 
当 你 不 再 需要 时 《比如 疏 虫 之 后 ) ， 清 空 啊 应 体 是 个 不 错 的 选择 ， 不 过 
在 写 操作 时 执行 该 操作 不 会 重 置 Scraper 的 计数 器 。 所 有 你 能 做 的 就 是 降 
低 管道 的 处 理 时 间 ， 从 而 有 效 减少 Scraper 中 处 理 的 响应 数量 。 可 以 使 用 
传统 的 优化 手段 实现 它 : 检查 可 能 与 之 交互 的 API 或 数据 库 是 个 能 够 文 
持 抓 取 程序 的 否 吐 量 ; 分 析 抓 取 程序 ， 将 功能 管道 移动 到 批 处 理 / 后 处 
理 系统 ; 使 用 更 强大 的 服务 器 或 分 布 式 息 取 。 














10.5.5 RH #5: 有 限 /过 度 item 并 友 造 成 的 洲 出 


症状 : 你 的 爬虫 为 每 个 啊 应 创建 了 多 个 Item。 你 得 到 的 吞吐 量 低 于 
预期 ， 并 且 可 能 和 前 面 案例 中 的 开 / 关 模式 相同 。 


示例 : 这 里 ， 我 们 有 一 个 稍微 不 太一 样 的 设置 ， 我 们 有 1000 个 请 
求 ， 并 且 它 们 的 每 个 返回 页 面 都 有 100 个 Item。 响 应 时 间 是 0.25 秒 ，Item 
管道 处 理 时 间 为 3 秒 。 我 们 设置 CONCURRENT_ITEMS 的 值 从 10 到 150， 执 
IT BAK 





for concurrent_items in 10 20 50 100 150; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=10@0@0 -s \ 


SPEED_T_RESPONSE=0.25 -s SPEED_ITEMS_PER_DETAIL=1@0 -s \ 


SPEED_PIPELINE_ASYNC_DELAY=3 -s \ 


CONCURRENT_ITEMS=$concurrent_items 


done 


s/edule d/load scrape p/line done mem 
952 16 32 180 © 243714 
920 16 64 640 © 487426 
888 16 96 960 © 731138 





Wie: ERARIS, BEREH PG A Be Tn Ee eS 
Item 时 。 除 这 种 情况 外 ， 你 应 该 设置 CONCURRENT_ITEMS = 1 ， 然 后 忘 





了 和 它 。 另 外 还 需 注 意 的 是 ， 这 是 一 个 虚拟 的 示例 ， 因 为 其 吞吐 量 相当 
大 ， 达 到 了 每 秒 大 约 1300 个 Item。 之 所 以 达到 如 此 高 的 吞吐 量 ， 是 因为 
延迟 低 且 稳定 、 几 乎 没有 真实 处 理 ， 以 及 啊 应 的 大 小 很 小 。 这 种 情况 并 
不 常见 。 











我 们 首先 要 注意 的 事情 是 ， 在 此 之 前 scrape 和 p/1ine 列 通常 都 是 
相同 的 数值 ， 而 现在 p/1ine 则 是 CONCURRENT_ITEMS . scrape 。 这 
是 符合 预期 的 ， 因 为 scrape 显示 的 是 响应 数 ， 而 p/1ine 则 是 Item 
数 。 





第 二 个 有 意思 的 事情 是 图 10.11 所 示 的 浴缸 形状 的 性 能 函数 。 由 于 


纵 轴 是 缩放 的 ， 因 此 该 图 表 看 起 来 会 比 实际 情况 更 显著 。 在 左 侧 ， 延 迟 
非常 高 ， 因 为 触及 了 前 一 市 所 提 到 的 内 存 限制 。 而 在 右 侧 ， 并 发 过 多 ， 
造成 使 用 了 过 多 的 CPU。 获 得 最 佳 效 果 并 不 那么 重要 ， 因 为 同 左右 移动 
非常 容易 。 
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图 10.11 


解决 方案 : 
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率 过 高 ， 那 么 最 好 减少 CONCURRENT_ITEMS 的 值 。 如 果 触 及 响应 的 5MB 
限制 ， 那 么 你 的 管道 无 法 跟 上 下 载 器 的 吞吐 量 ， 增 

加 CONCURRENT_ITEMS 的 值 可 能 能 够 快速 解决 该 问题 。 如 果 修 改 后 没有 
什么 区 别 ， 那 么 应 当 遵照 前 面 一 节 给 出 的 建议 ， 再 三 询问 自己 系统 的 其 
余部 分 是 否 能 够 文 持 你 的 抓 取 程序 的 吞吐 量 。 


10.5.6 ”案例 #6: 下 载 器 未 充分 利用 


症状 : 你 增加 了 CONCURRENT_REQUESTS 的 值 ， 但 是 下 载 器 并 未 跟 
上 ， 没 能 充分 利用 。 调 度 器 是 空 的 。 








示例 : ” 首先， 我们 运行 一 个 没有 问题 的 示例 。 我 们 将 切换 到 1 秒 的 
啊 应 时 间 ， 因 为 它 能 够 简化 计算 量 ， 使 下 载 器 的 吞吐 量 T=N/S=N/1 


= CONCURRENT_REQUESTS 。 假 设 按照 如 下 命令 运行 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 


s/edule d/load scrape p/line done mem 


real 6m16 .99s 





我 们 得 到 了 一 个 充分 利用 的 下 载 器 〈64 个 请 求 ) ， 总 时 间 为 11 秒 ， 
与 我 们 以 每 秒 64 个 请 求 的 条 件 处 理 500 个 URE 的 模型 相 匹 配 CS = N/T + 


t = 500 / 64 + 3.1 = 10.91#}) 。 


start/stop 


现在 ， 执 行 相 同 的 爬 取 ， 不 过 不 再 像 前 面 那 些 示 例 那样 默认 从 列表 
中 提供 URL， 而 是 使 用 索引 页 通过 
SPEED_START_REQUESTS_STYLE=UseIndex 抽取 URL。 这 和 我 们 本 书 


中 其 他 章 使 用 的 模式 相同 。 每 个 索引 页 默认 包含 20 个 URL。 











$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=566 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 \ 


-S SPEED_START_REQUESTS_STYLE=UseIndex 


s/edule d/load scrape p/line done mem 


0 1 0 0 0 (2 
9 21 2) 0 0 (2 
(2 21 (2 0 20 0 


real 6m32 .24s 








很 明显 ， 这 和 前 面 的 案例 不 太一 样 。 不 知 为 何 ， 下 载 器 的 运行 低 于 
其 最 大 能 力 ， 并 且 吞 吐 量 为 了 = N/S-toarystop = 500 / (82.2 - 3.1) = 17 个 


讨论 : 快速 浏览 d/load 列 ， 可 以 确信 下 载 右 没 能 充分 利用 。 这 是 
因为 我 们 没有 足够 的 URL 提 供给 它 。 我 们 的 抓 取 处 理 生成 URL 的 速度 比 
最 大 消费 能 力 要 慢 。 在 本 例 中 ， 每 个 索引 页 会 生成 20 个 URL 加 上 1 个 前 
往 下 一 索引 页 的 URL。 耕 吐 量 无 论 如 何 都 无 法 超过 每 秒 20 个 请 求 ， 因 为 
我 们 无 法 足够 快 地 得 到 源 URL。 该 问题 非常 隐蔽 ， 容 易 被 忽视 。 





解决 方案 : 如果 每 个 索引 页 包含 一 个 以 上 的 下 一 页 的 链接 ， 那 么 
可 以 利用 它们 加 速 URL 的 生成 。 如 果 可 以 找到 显示 更 多 结果 的 索引 页 面 


《比如 50 个 ) 就 更 好 了 。 我 们 可 以 通过 运行 几 个 模拟 来 观察 其 行为 。 


$ for details in 16 26 36 40; do for nxtlinks in 1 2 3 4; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 -s SPEED_T_RESPONSE=1 \ 


-s CONCURRENT_REQUESTS=64 -s SPEED_START_REQUESTS_STYLE=UseIndex \ 


-S SPEED_DETAILS_PER_INDEX_PAGE=$details \ 


-S SPEED_INDEX_POINTAHEAD=$nxtlinks 


done; done 











在 图 10.12 中 ， 可 以 看 到 吞吐 量 是 如 何 根据 这 两 个 参数 变化 的 。 我 
们 观察 到 了 线性 行为 ， 无 论 是 下 一 页 链接 ， 还 是 详情 页 ， 直 到 达到 系统 
上 限 。 可 以 通过 重新 排列 爬 取 的 Rule 进行 实验 。 如 果 使 用 LIFO (BK 
认 ) 顺序 ， 你 可 能 会 看 到 如 果 先 调用 索引 页 请 求 ， 最 后 在 列表 中 抽取 它 
们 的 话 ， 能 够 得 到 较 小 的 改善 。 你 也 可 以 尝试 为 访问 索引 页 的 请 求 设置 
高 优先 级 。 虽 然 这 两 种 技术 都 没有 显著 的 改善 ， 但 可 以 通过 分 别 设 
置 SPEED_INDEX_RULE_LAST=1 和 SPEED_INDEX_HIGHER_PRIORITY=1 
来 进行 尝试 。 请 注意 这 两 种 解决 方案 都 会 首先 下 载 整 个 索引 页 〈 由 于 优 
先 级 高 ) ， 因 此 会 在 调度 器 中 生成 大 量 URL， 增 加 内 存 需求 。 在 它们 完 
成 所 有 索引 之 前 ， 只 会 给 出 少量 的 结果 。 对 于 少量 索引 还 可 以 接受 ， 但 
是 对 于 大 量 索 引 的 情况 ， 就 不 太 可 取 了 。 
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图 10.12 ”以 每 个 索引 页 链接 的 详情 页 及 下 一 页 数量 为 变量 的 吞吐 量 函数 








一 个 简单 而 又 强大 的 技术 是 索引 分 片 。 这 就 需要 你 使 用 超过 一 个 初 
始 索引 URL， 在 它们 之 间 有 一 个 最 大 距离 。 比 如 ， 如 果 索 引 包 含 100 
页 ， 你 可 以 选取 1 和 51 作 为 起 始 索引 。 然 后 ， 疏 虫 可 以 以 两 倍速 率 使 用 
下 一 页 链接 有 效 遍 历 索 引 。 如 果 你 能 找到 一 种 遍历 索引 的 方式 ， 比 如 基 








于 产品 的 品牌 或 提供 给 你 的 任何 其 他 属性 ， 并 且 可 以 将 其 按照 大 致 相等 


的 段 进行 拆 分 的 话 ， 也 可 以 做 到 类 似 的 事情 。 你 可 以 使 用 -s 
SPEED_INDEX_SHARDS 设置 进行 模拟 。 





$ for details in 10 20 30 40; do for shards in 1 2 3 4; do 
time scrapy crawl speed -s SPEED _TOTAL_ITEMS=5@0 -s SPEED_T_RESPONSE=1 \ 
-S CONCURRENT_REQUESTS=64 -s SPEED _START_REQUESTS_STYLE=UseIndex \ 


-S SPEED_DETAILS_PER_INDEX_PAGE=$details -s SPEED_INDEX_SHARDS=$shards 


done; done 


pT 


结果 要 比 前 面 的 技术 更 好 ， 如 果 该 方法 适合 你 的 话 ， 我 将 会 推荐 这 
种 方法 ， 因 为 它 更 加 简单 整洁 。 


10.6 ”故障 排除 流程 


总 结 来 说 ，Scrapy 在 设计 时 就 将 下 载 器 作为 瓶 贷 。 从 一 个 低 数 值 的 
CONCURRENT_REQUESTS 开始 ， 了 逐渐 增加 ， 直 到 触及 下 述 限 制 之 一 : 


CPU 使 用 率 大 于 80% 一 909%6; 
源 网 站 延迟 过 度 增长 ; 
抓 取 程序 中 响应 达到 了 5MB 的 内 存 限制 。 


同时 ， 执 行 以 下 操作 : 





始终 保持 调度 器 队列 (mqs/dqs〉 中 至少 有 一 定量 的 请 求 ， 避 人 免 下 
载 器 出 现 URL 人 饥饿 ; 
永远 不 要 使 用 任何 阻 豆 代码 或 CPU 密集 型 代码 。 


图 10.13 总 结 了 诊断 并 修复 Scrapy 性 能 问题 的 过 程 。 
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图 10.13 ”Scrapy 性 能 问题 故障 排除 


10.7 本 章 小 结 
在 本 章 中 ， 我 们 尝试 通过 给 出 几 个 有 趣 的 案例 ， 来 突出 Scrapy 架 构 
具体 细节 可 能 会 在 未 来 版 本 的 Scrapy 中 有 所 变更 ， 不 过 本 
能 会 帮助 你 处 


EZS 


的 优秀 性 能 。 具 
章 提 供 的 知识 应 当 会 在 很 长 一 段 时 间 内 保持 有 效 ， 并 且 可 
理 基 于 Twisted、Netty Node.js 或 类 似 框架 的 任何 高 并 发 异步 系统 。 


当 谈 到 Scrapy 的 性 能 问题 时 ， 有 3 个 有 效 的 答案 : 我 不 知道 也 不 介 





意 ; 我 不 知道 但 我 会 找 出 来 ;我 知道 。 正 如 我 们 在 本 章 中 多 次 论证 的 ， 
更 有 可 能 与 Scrapy 的 性 


天 真 地 回答 “我 们 需要 更 多 的 服务 器 /内 存 /带宽 ” 
能 无 关 。 人 们 需要 真正 理解 瓶颈 在 什么 地 方 ， 并 且 去 提升 它 。 





在 最 后 一 章 中 ， 我 们 将 进一步 专注 提升 性 能 ， 通 过 在 多 台 服 务 器 上 


分 布 式 部 署 息 虫 ， 达 到 超越 单机 的 能 


第 11 革 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 
MEHR 


我 们 已 经 走 了 很 长 的 一 段 路 。 我 们 首先 熟悉 了 两 种 基础 的 网 络 技术 
一 HTML 和 XPath， 然 后 开始 使 用 Scrapy 扑 取 复 杂 网 站 。 接 下 来 ， 我 们 
深入 了 解 了 Scrapy 通 过 其 设置 为 我 们 提供 的 诸多 功能 ， 然 后 在 探讨 其 
Twisted 引 苟 的 内 部 架构 和 异步 功能 时 ， 更 加 深入 地 了 解 了 Scrapy 和 
Python。 在 上 一 章 中 ， 我 们 研究 了 Scrapy 的 性 能 ， 并 学 习 了 如 何 解决 复 
杂 和 经 常 违 背 直 觉 的 性 能 问题 。 





在 最 后 的 这 一 章 中 ， 我 将 为 你 指出 如 何 进 一 步 将 该 技术 扩展 到 多 人 台 
服务 器 的 一 些 方向 。 我 们 很 快 就 会 发 现 爬 取 工 作 经 常 是 一 种 "高度 并 
发 "的 问题 ， 因 此 可 以 轻松 地 实现 横 同 扩展 ， 利 用 多 台 服 务 器 的 资源 。 
为 了 实现 该 目标 ， 我 们 可 以 像 平 时 那样 使 用 一 个 Scrapy 中 间 件 ， 不 过 也 
可 以 使 用 Scrapyd， 这 是 一 个 专门 用 于 管理 运行 在 远程 服务 器 上 的 Scrapy 
疏 虫 的 应 用 。 这 将 允许 我 们 在 自己 的 服务 器 上 ， 拥 有 与 第 6 章 中 介绍 的 
相 兼 容 的 功能 。 














最 后 ， 我 们 将 使 用 基于 Apache Spark 的 简单 系统 ， 对 抽取 的 数据 执 
行 实时 分 析 。Apache Spark 是 一 个 非常 流行 的 大 数据 处 理 框 架 。 我 们 将 
使 用 Spark Streaming API 展 示 在 数据 收集 增多 时 越 来 越 准确 的 结果 。 对 
于 我 来 说 ， 最 终 的 这 个 应 用 展示 了 Python 作 为 一 种 语言 的 能 力 和 成 就 
度 ， 因 为 我 们 只 珊 这 些 ， 惑 能 编写 出 富有 表现 力 、 简 涪 并 且 高 效 的 代 
码 ， 实 现 从 数据 抽取 到 分 析 的 全 栈 工作 。 


11.1 房产 的 标题 是 如 何 影响 价格 的 


我 们 尝试 解决 的 示例 问题 是 找 出 标题 是 如 何 与 房产 价格 相关 的 。 我 
们 会 认为 诸如 “Jacuzzi”* 或 “pool* 这 样 的 词汇 与 高 价位 相关 ， 而 类 
似 “discount” 这 样 的 词汇 与 低 价位 相关 。 绪 合 位 置信 息 ， 束 可 能 根据 该 
位 置信 息 和 描述 ， 为 我 们 提供 房产 是 否 特价 的 实时 报警 。 











我 们 所 需要 计算 的 是 给 定 词汇 在 是 否 存 在 时 的 价格 差 : 





Ch; — f Drin 7 \ (Drip 
Shi f tterm E (F PtC€properties—with—term 一 I TiCeproperties—without—term )/ Price 


比如 ， 假 设 平均 租金 为 $1000， 我 们 观察 到 包含 词汇 jacuzzi 的 房产 
平均 价格 是 $1300， 而 不 包含 该 词汇 的 房产 平均 价格 是 $995， 那 么 
jacuzzi 的 价格 差 为 shiftjscwzzi = (1300-995) / 1000 = 30.5%。 如 果 存 在 一 个 
售 jacuzzi 关 键 词 的 房产 ， 其 价格 只 比 平均 价格 高 出 5%， 那 么 我 会 非常 
想 要 了 解 它 。 








请 注意 ， 该 指标 并 非 微不足道 ， 因 为 关键 词 的 效 末 将 会 被 聚合 。 例 
如 ， 既 包含 jacuzzi 又 包含 discount 的 标题 很 可 能 显示 出 这 些 关 键 词 的 组 
合 效 果 。 我 们 收集 并 分 析 的 数据 越 多 ， 预 估 的 准确 上 度 越 高 。 下 面 我 们 将 
回 到 该 问题 上 来 ， 讲 解 如 何在 一 分 钟 内 实现 一 个 流 媒 体 解 决 方案 。 








11.2 Scrapyd 


现在 ， 我 们 将 要 开始 介绍 Scrapyd。Scrapyd 这 个 应 用 允许 我 们 在 服 
务 嚣 上 部 署 朴 虫 ， 并 使 用 它们 制定 爬 取 的 计划 任务 。 让 我 们 来 感受 一 下 
使 用 它 是 多 么 简单 吧 。 我 们 在 开发 机 中 已 经 预 安装 了 该 应 用 ， 所 以 可 以 


立即 使 用 第 3 章 中 的 代码 对 其 进行 测试 。 我 们 在 之 前 使 用 了 几乎 完全 相 
同 的 过 程 ， 在 这 里 只 有 一 个 小 的 变化 。 


首先 ， 我 们 访问 http://1localhost:688686/ ， 来 看 一 下 Scrapyd 的 
Web 界 面 ， 如 图 11.1 所 示 。 
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图 11.1 ”Scrapyd 的 Web 界 面 


可 以 看 出 ，Scrapyd 对 于 Jobs 、Items 、Logs 和 Documentation 都 
有 不 同 的 区 域 。 此 外 ， 它 还 提供 了 一 些 指 引 ， 告 知 我 们 如 何 使 用 其 API 
定制 计划 任务 。 


为 了 完成 该 测试 ， 我 们 必须 先 在 Scrapyd 服 务 器 上 部 署 聆 虫 。 第 一 
步 是 按照 如 下 操作 修改 scrapy.cfg 配置 文件 。 


| 


$ pwd 


/root/book/ch@3/properties 


$ cat scrapy.cfg 


[settings] 


default = properties .settings 


[deploy] 


url = http://localhost: 6800/ 


project = properties 





ERKE, RIIA ie Ze ae HK Rul 一 行 的 注释 。 默 认 的 设置 
已 经 很 合适 了 。 现 在 ， 要 想 部 晋 朴 虫 ， 需 要 使 用 scrapyd-client 提供 
的 scrapyd-deploy 工具 。scrapyd-client 曾经 是 Scrapy 的 一 部 分 ， 





不 过 现在 已 经 独立 为 一 个 单独 的 模块 ， 该 模块 可 以 使 用 pip install 
scrapyd-client 安装 〈 已 经 在 开发 机 中 安装 好 了 该 模块 ) 。 





$ scrapyd-deploy 


Packing version 1450044699 


Deploying to project "properties" in http://localhost:6800/addversion. 
json 
Server response (200): 


{"status": "ok", "project": "properties", "version": "1450044699", 


"spiders": 3, "node_name": "dev"} 





当 部 署 成 功 后 ， 可 以 在 Scrapyd 的 Web 界 面 主页 的 Available projects 
区 域 看 到 该 项 目 。 现 在 ， 可 以 按照 提示 在 该 页 面 提交 一 个 任务 。 





$ curl http://localhost:6800/schedule.json -d project=properties -d 
spider=easy 


{"status": "ok", "jobid": " d4df...", "node_name": "dev"} 





如 果 回 到 Web 界 面 的 Jobs 区 域 ， 可 以 看 到 任务 正在 运行 。 稍 后 可 以 
使 用 schedule.json 返回 的 jobid ， 通 过 cancel.json 取消 该 任务 。 





$ curl http://localhost:6800/cancel.json -d project=properties -d 


job=d4df... 


{"status": "ok", "prevstate": "running", "node_name": "dev"} 





HEWER ÄRE, BU KIB Be Boy E ATT AL EE 


非常 好 ! 当 访 问 Logs 区 域 时 ， 可 以 看 到 日 志 ; 而 当 访 问 Items 区 域 
时 ， 可 以 看 到 刚才 息 取 的 Item 。 这 些 都 会 在 一 定 周 期 之 后 清空 以 释放 
空间 ， 因 此 在 几 次 爬 取 操作 后 这 些 内 容 可 能 束 不 再 可 用 。 


如 果 有 合理 的 理由 ， 比 如 冲突 ， 那 么 我 们 可 以 使 用 http_port 修改 
端口 ， 这 是 Scrapyd 提 供 的 诸多 设置 之 一 。 通 过 访问 http://scrapyd. 
readthedocs.org/ 来 了 解 Scrapyd 的 文档 是 非常 值得 的 。 在 本 章 中 ， 
我 们 需要 修改 的 一 个 重要 设置 是 max_proc 。 如 果 将 该 设置 保留 为 默认 
值 0 的 话 ，Scrapyd 将 在 Scrapy 任 务 运 行 时 允许 4 倍 于 CPU 数量 的 并 发 。 由 
于 我 们 将 运行 多 个 Scrapyd 服 务 器 ， 并 且 大 部 分 可 能 是 在 虚拟 机 当中 
的 ， 因 此 我 们 将 会 设置 该 值 为 4， 即 允许 至 多 4 个 任务 并 发 运行 。 这 与 本 
章 的 需求 有 关 ， 而 在 实际 部 普 当 中 ， 一 般 情 况 下 使 用 默认 值 就 能 够 恨 好 


运行 。 











11.3 分布 式 系统 概述 


对 我 来 说 ， 设 计 该 系统 是 一 个 非常 棒 的 经 历 ( 见 图 11.2〉 。 起 初 ， 
我 增加 了 功能 和 复杂 性 ， 以 至 于 不 得 不 要 求 读者 拥有 高 端 便 件 才能 运行 








些 示例 。 这 就 造成 之 后 的 一 个 又 过 需求 成 为 简化 一 一 无 论 是 为 了 保持 
人 硬件 需求 更 加 实际 ， 还 是 确保 本 革 能 够 保持 专注 在 Scrapy 上。 













scrapyd:6800 


Jobs with 
batches of 
URLs 





| 


图 11.2 ”系统 概述 


最 后 ， 本 章 将 要 使 用 的 系统 包含 我 们 的 开发 机 以 及 几 个 其 他 服务 

器 。 我 们 将 使 用 开发 机 执行 索引 页 面 的 垂直 抓 取 ， 并 从 中 批量 抽取 
URL。 之 后 ， 将 以 轮 询 的 方式 将 这 些 URL 分 发 到 Scrapyd 市 点 当中 执行 
ER. Ra, AR Item 的 .j1 文件 将 会 通过 FTP 传 输 到 运行 Apache 
Spark 的 服务 器 中 。 什 么 ? FTP? 是 的 ， 我 选择 FTP 和 本 地 文件 系统 ， 而 
T \ 是 HDFS 或 Apache Kafka 的 原因 是 因为 其 内 存 需 求 很 低 ， 并 且 Scrapy 后 

端的 FEED_URI 能 够 直接 文 持 。 请 注意 ， 通 过 简单 修改 $Scrapyd 和 Spark 
的 配置 ， 我 们 可 以 使 用 Amazon S3 来 存储 这 些 文件 ， 享 受 其 带 来 的 见 余 
性 、 扩 展 性 等 诸多 特性 。 不 过 ， 这 里 不 会 有 更 多 有 意思 的 相关 话题 来 学 
STE AT TESS 




















使 用 FTP 的 一 个 风险 是 Spark 可 能 会 在 其 上 传 过 程 中 看 到 不 完整 的 文件 。 











为 了 避免 发 生 该 问题 ， 我 们 将 使 用 Pure-FTPd 以 及 一 个 回调 脚本 ， 在 上 传 完 
成 后 立即 将 上 传 的 文件 移动 到 /root/items 目录 中 。 











每 隔 几 秒 ，Spark 将 会 检测 该 目录 (/root/items ) ， 读 取 任 何 新 
文件 ， 形 成 小 批 次 ， 并 执行 分 析 。 我 们 使 用 Apache Spark 是 因为 它 文 持 
Python 作为 其 编程 语言 ， 并 且 还 支持 流 。 到 目前 为 止 ， 我 们 可 能 已 经 使 
用 了 一 些 生命 周期 相对 较 短 的 聆 取 工 作 ， 不 过 现实 世界 中 许多 爬 取 工作 
永远 都 不 会 结束 。 疏 取 工 作 24/7 不 间断 运行 ， 并 提供 用 于 分 析 的 数据 
流 ， 数 据 越 多 其 结果 就 越 精确 。 正 因 如 此 ， 我 们 将 使 用 Apache Spark 进 
行 展 示 。 





使 用 Apache Spark 和 Scrapy 并 没有 什么 特殊 之 处 。 你 也 可 以 选择 使 用 
Map-Reduce、Apache Storm 或 任何 其 他 适合 你 需求 的 框架 。 














在 本 章 中 ， 我 们 并 不 会 将 Item 插入 到 诸如 ElasticSearch 或 MySQL 等 
数据 库 当 中 。 第 9 章 中 介绍 的 技术 在 这 里 同样 适用 ， 不 过 其 性 能 会 很 粳 
糕 。 当 你 每 秒 钟 执行 数 千 次 写 入 操作 时 ， 只 有 极 少数 的 数据 库 系统 能 够 
运行 良好 ， 但 这 正 是 我 们 的 管道 将 会 做 的 事情 。 如 采 我 们 想 要 回 数据 库 
中 插入 数据 ， 则 需要 遵循 与 使 用 Spark 相 似 的 流程 ， 即 批量 导入 生成 的 
Item 文件 。 你 可 以 修改 我 们 的 Spark 示 例 流 程 ， 批 量 导入 到 任意 数据 库 
当中 。 














最 后 需要 注意 的 是 ， 该 系统 并 没有 民 好 的 弹性 。 我 们 假设 各 市 点 都 





是 健康 的 ， 并 且 任 何 失败 都 不 会 产生 严重 的 业务 影响 。Spark 拥 有 弹性 

配置 ， 能 够 提供 高 可 用 性 。 而 除了 Scrapyd 的 持久 化 队列 外 ，Scrapy 并 没 
有 提供 任何 相关 的 内 建功 能 ， 这 就 意味 着 失败 的 任务 需要 在 节点 恢复 后 
才能 重新 启动 。 这 种 方式 对 于 你 的 需求 来 说 ， 也 许 适 合 ， 也 许 不 适合 。 
如 果 对 你 而 言 弹 性 十 分 重要 ， 那 么 你 需要 搭建 监控 和 分 布 式 队 列 方案 

(如 基于 Kafka 或 RabbitMQ) ， 来 重启 失败 的 礁 取 工作 。 








11.4 疏 虫 和 中 间 件 的 变化 


为 了 构建 该 系统 ， 我 们 需要 稍微 对 Scrapy 爬 虫 进 行 修 改 ， 并 且 需 要 
开发 慌 虫 中 间 件 。 更 具体 地 说 ， 我 们 必须 执行 如 下 操作 : 





。 调整 索引 页 爬 取 ， 以 最 大 速率 执行 ; 
。 编写 中 间 件 ， 分 批发 送 URL 到 Scrapyd 服 务 器 ; 
。 使 用 相同 中 间 件 ， 人 允许 在 局 动 时 使 用 批量 URL。 





我 们 将 尝试 使 用 尽 可 能 小 的 改动 来 实现 这 些 变 化 。 理 想 情 况 下 ， 整 
个 操作 应 该 清晰 、 易 理解 并 且 对 其 依赖 的 肘 虫 代码 透明 。 这 应 该 是 一 个 
基础 架构 层级 的 需求 ， 如 果 想 对 爬虫 《可 能 数 百 个 ) 进行 修改 来 实现 它 
则 是 一 个 坏 主意 。 





11.4.1 索引 页 分 片 息 取 


我 们 的 第 一 步 是 优化 索引 页 爬 取 ， 使 其 尽 可 能 更 快 。 在 开始 之 前 ， 
先 来 设置 一 些 期 望 。 假 设 朴 虫 朴 取 并 发 量 是 16， 并 且 我 们 测量 得 到 其 与 
源 网 站 服务 器 的 延迟 大 约 为 0.25 秒 。 此 时 得 到 的 吞吐 量 最 多 为 16 / 0.25 = 
64 页 / 秒 。 索 引 页 数量 为 50000 个 详情 页 / 每 个 索引 页 30 个 详情 页 链接 = 











1667 索 引 页 。 因 此 ， 我 们 期 望 索 引 页 下 载 花 费 的 时 间 大 约 为 1667/64 = 
26 秒 多 一 点 。 





让 我 们 以 第 3 章 中 名 为 easy 的 爬虫 开始 。 先 把 执行 垂直 抓 取 的 Rule 
注释 掉 (callback='parse_item' 的 那个 ) ， 因 为 现在 只 需要 疏 取 索 
= ie 





Q 
你 可 以 在 GitHub 中 获取 到 本 书 的 全 部 代码 。 下 载 该 代码 ， 可 以 访 


问 : git clone 
https://github.com/scalingexcellence/scrapybook 。 


本 章 中 的 完整 代码 位 于 ch11 目录 当中 。 





如 果 我 们 在 进行 任何 优化 之 前 对 scrapy crawl RERA HAI 
情况 进行 计时 ， 可 以 得 到 如 下 结果 。 





$ 1s 


properties scrapy.cfg 


$ pwd 


/root/book/ch11/properties 


$ time scrapy crawl easy -s CLOSESPIDER_PAGECOUNT=10 


DEBUG: Crawled (200) <GET ...index_90000.html> (referer: None) 


DEBUG: Crawled (200) <GET ...index_00001.html> (referer: ...index_00000. 


htm1) 


real @m4.099s 





如 有 果 10 个 页 面 就 花费 了 4 秒 时 间 ， 那 么 就 不 可 能 在 26 秒 时 间 内 完成 
1,700 个 页 面 。 通 过 查看 日 志 ， 我 们 发 现 每 个 页 面 都 来 自 于 前 一 个 页 面 
的 下 一 页 链接 ， 也 就 是 说 在 任意 时 刻 都 只 有 至 多 一 个 页 面 正 在 执行 仆 
取 。 我 们 的 有 效 并 发 为 1。 我 们 希望 并 行 处 理 ， 得 到 想 要 的 并 发 数量 
C16 个 并 发 请 求 )。 我 们 将 对 索引 分 片 ， 并 允许 一 些 额外 的 分 片 ， 以 确 
保 怜 虫 中 的 URL 不 会 不 足 。 我 们 将 会 把 索引 分 为 20 个 段 。 实 际 上 ， 任 何 
超过 16 的 数值 都 能 够 增加 速度 ， 不 过 在 超过 20 之 后 所 得 到 的 回报 呈 递 减 
趋势 。 我 们 将 通过 如 下 表达 式 计 算 每 个 分 片 的 起 始 索引 ID。 








>>> map(lambda x: 1667 * x / 20, range(2@)) 


[@, 83, 166, 250, 333, 416, 500, ... 1166, 1250, 1333, 1416, 1500, 1583] 





因此 ， 我 们 使 用 如 下 代码 设置 start_urls 。 


start_urls = ['http://web:9312/properties/index_%05d.html' % id 


for id in map(lambda x: 1667 * x / 20, range(20))] 











这 可 能 和 你 的 索引 有 很 大 的 不 同 ， 因 此 我 们 没 必 要 在 此 处 实现 得 更 
漂亮 。 如 果 还 设 定 了 并 发 设置 (CONCURRENT_REQUESTS 


、CONCURRENT_REQUESTS_PER_DOMAIN ) 为 16， 那 么 当 运 行 候 虫 时 ， 
将 会 得 到 如 下 结 


$ time scrapy crawl easy -s CONCURRENT_REQUESTS=16 -s CONCURRENT_ 


REQUESTS_PER_DOMAIN=16 


real @m32.344s 





该 结果 已 经 与 期 望 值 非常 接近 了 。 我 们 的 下 载 速 度 为 1667 个 页 面 / 
32 秒 = 52 个 索引 页 / 秒 ， 这 就 意味 着 每 秒 可 以 生成 52x30 = 1560 个 详情 页 
URL。 现 在 ， 可 以 将 垂直 抓 取 的 Rule 的 注释 取消 掉 ， 保 存 文件 作为 新 
疏 虫 分 发 。 我 们 不 需要 对 疏 虫 代码 进行 更 多 修改 ， 这 显示 出 我 们 即将 开 








发 的 中 间 件 的 强大 以 及 非 侵 入 性 。 如 果 只 使 用 开发 服务 器 运行 sScrapy 
crawl ， 假 设 处 理 详情 页 的 速度 和 索引 页 处 理 时 一 样 快 ， 那 么 
不 少 于 50000/ 52 = 164) 44 IN fa] FE AME A. 





它 将 花费 





本 市 有 两 个 关键 内 容 。 在 学 习 完 第 10 章 之后， 我 们 已 经 可 以 实现 真 
正 的 工程 。 我 们 能 够 精确 计算 出 系统 期 望 得 到 的 性 能 ， 并 且 确 保 在 达到 
该 性 能 之 前 不 会 停止 《在 合理 范围 内 ) 。 第 二 个 要 记 住 的 重要 事情 是 ， 
由 于 索引 页 疏 取 提供 了 详情 页 ， 改 取 的 总 吞吐 量 将 会 是 其 否 吐 量 的 最 小 
值 。 如 果 我 们 生成 的 URL 比 Scrapyd 能 够 消费 得 更 快 ， 那 么 URL 将 会 堆 
积 在 其 队列 当中 。 反 过 来 ， 如 果 生 成 的 URL 太 慢 ，Scrapyd 将 会 拥有 过 
剩 的 无 法 利用 的 能 














11.4.2 4; Ft AURL 


现在 ， 我 们 准备 开发 处 理 详情 页 URL 的 基础 架构 ， 目 的 是 对 其 进行 
垂直 疏 取 、 分 批 并 分 发 到 多 台 Scrapyd 节 点 中 ， 而 不 是 在 本 地 疏 取 。 





如 有 果 查 看 第 8 章 中 的 Scrapy 架 构 ， 就 可 以 很 容易 地 得 出 结论 ， 这 是 
仆 虫 中 间 件 的 任务 ， 因 为 它 实现 了 process_spider_output() ， 在 到 
达 下 载 器 之 前 ， 在 此 处 处 理 请 求 ， 并 能 够 中 止 它们 。 我 们 在 实现 中 限制 
只 文 持 基 于 CrawlSpider 的 爬虫 ， 另 外 还 只 文 持 简 单 的 GET 请 求 。 如 
果 需 要 更 加 复杂 ， 比 如 POST 或 有 权限 验证 的 请 求 ， 那 么 需要 开发 更 复 
杂 的 功能 来 扩展 参数 、 请 求 涉 ， 甚 至 可 能 在 每 次 批量 运行 后 重新 登录 。 








在 开始 之 前 ， 先 来 快速 浏览 一 下 Scrapy 的 GitHub。 我 们 将 回 
顾 SPIDER_MIDDLEWARES_BASE 设置 ， 以 查看 Scrapy 提 供 的 参考 实现 ， 
以 便 尽 最 大 可 能 复 用 它 。Scrapy 1.0 包 含 如 下 把 虫 中 间 


件 : HttpErrorMiddleware 、OffsiteMiddleware 
、RefererMiddleware . UrlLengthMiddleware 以 及 
DepthMiddleware 。 在 快速 了 解 它 们 的 实现 之 后 ， 我 们 发 现 
OffsiteMiddleware 〈 只 有 60 行 代码 ) 与 想 要 实现 的 功能 很 相似 。 它 
ALTE ME Ht Hallowed_domains 属性 ， 把 URL 限 制 在 某 些 特定 域名 中 。 
我 们 可 以 使 用 相似 的 模式 吗 ?” 和 0ffsiteMiddleware 实现 中 丢弃 URL 
不 同 ， 我 们 将 对 这 些 URL 进 行 分 批 并 发 送 到 Scrapyd 节 点 中 。 事 实证 明 
这 是 可 以 的 。 下 面 是 实现 的 部 分 代码 。 


def _ init (self, crawler): 
settings = crawler.settings 
self. target = settings.getint('DISTRIBUTED_TARGET_RULE', -1) 
self. seen = set() 
self._urls = [] 
self. batch size = settings.getint( ‘DISTRIBUTED BATCH _SIZE', 1000) 


def process _spider_output(self, response, result, spider): 
for x in result: 
if not isinstance(x, Request): 
yield x 
else: 
rule = x.meta.get('rule') 


if rule == self. target: 
self._add_to_batch(spider, x) 
else: 
yield x 


def add to batch(self, spider, request): 
url = request.url 
if not url in self. seen: 
self. seen.add(url) 
self. _urls.append(url) 
if len(self._urls) >= self. batch size: 
self. flush_urls(spider) 





process_spider_output() 既 处 理 Item 也 处 理 Request 。 我 们 
只 想 处 理 Request ， 因 此 我 们 对 其 他 所 有 内 容 执行 yield 操作 。 如 果 碍 
看 CrawlSpider 的 源 代码 ， 束 会 注意 到 将 Request / Response 映射 
到 Rule 的 方式 是 通过 其 meta 字典 的 名 为 'rule' 的 整 型 字段 。 我 们 检 
查 该 数值 ， 如 果 它 指向 目标 的 Rule (DISTRIBUTED_TARGET_RULE 设 
置 ) ， 则 会 调用 _add_to_batch() 添加 URL 到 当前 批 次 。 然 后 ， 丢 弃 
iZRequest 。 对 其 他 所 有 Request 执行 yield 操作 ， 比 如 下 一 页 链接 、 
无 变化 的 链接 。_add_to_batch() 方法 实现 了 一 个 去 重 机 制 。 不 过 很 
遗憾 的 是 ， 由 于 前 一 节 中 描述 的 分 请 流 程 ， 我 们 可 能 对 少数 URL 抽 取 两 
次 。 我 们 使 用 _seen 集合 检测 并 丢弃 重复 值 。 然 后 ， 把 这 些 URL 琴 加 
Bl urls 列表 中 ， 如 果 其 大 小 超过 _batch_size 
(DISTRIBUTED_BATCH_SIZE 设置 ) ， 就 会 触发 调用 flush_ur1ls() 
。 该 方法 提供 了 如 下 的 关键 功能 。 





def _ init__(self, crawler): 


self. targets = settings.get("DISTRIBUTED_TARGET_HOSTS") 

self. batch = 1 

self. project = settings.get('BOT_NAME') 

self. feed uri = settings.get('DISTRIBUTED_TARGET_FEED_URL', None) 
self. scrapyd submits to wait = [] 


def flush_urls(self, spider): 
if not self._urls: 
return 


target = self. _targets[(self._batch-1) % len(self. targets) ] 


data [ 

"project", self. project), 

"spider", spider.name), 

"setting", "FEED _URI=%s" % self. feed_uri), 
"patch", str(self._batch)), 


json_urls = json.dumps(self._urls) 
data.append(("setting", "DISTRIBUTED _START_URLS=%s" % json_urls)) 


d = treq.post("http://%s/schedule.json" % target, 
data=data, timeout=5, persistent=False) 


self. scrapyd_ submits to wait.append(d) 


self._urls = [] 
self. batch += 1 





首先 ， 它 使 用 一 个 批 次 计数 器 (batch) 来 决定 要 将 该 批 次 发 送 
到 哪个 Scrapyd 服 务 右 中 。 我 们 在 _targets 





(DISTRIBUTED_TARGET_HOSTS 设置 ) 中 保持 更 新 可 用 的 服务 器 。 然 
后 ， 构 造 POST 请 求 到 Scrapyd 的 schedule.json 。 这 比 之 前 通过 cur1l 
执行 的 更 加 高 级 ， 因 为 它 传 递 了 一 些 精心 挑选 的 参数 。 基 于 这 些 参 数 ， 
Scrapyd 可 以 有 效 地 计划 运行 任务 ， 类 似 如 下 所 示 。 





scrapy crawl distr \ 
-s DISTRIBUTED START_URLS='[".../property_@@0000.htm1l", ... ]' \ 


-s FEED _URI='ftp://anonymous@spark/%(batch)s %(name)s %(time)s.jl' \ 
-a batch=1 





Me SA AM Ah, FRAT NEERA  —/SFEED_URIV E- 
我 们 可 以 从 DISTRIBUTED _ TARGET _ FEED_UREL 设 置 中 获取 该 值 。 


由 于 Scrapy 文 持 FTP， 我 们 可 以 让 Scrapyd 通 过 匿名 FTP 的 方式 将 的 
取 到 的 Item 文件 上 传 到 Spark 服 务 嚣 中。 格式 包含 仆 虫 名 (%(name)s 
) AU TA] C%(time)s ) 。 如 果 只 使 用 这 些 ， 那 么 当 两 个 文件 的 创建 时 
间 相同 时 ， 最 终 会 产生 冲突 。 为 了 避免 意外 禾 盖 ， 我 们 还 添加 了 一 个 % 
(batch)s 参数 。 默 认 情 况 下 ，Scrapy 不 知道 任何 关于 批 次 的 事情 ， 因 


此 我 们 需要 找到 一 种 方式 来 设置 该 值 。Scrapyd 中 schedule.json 这 个 
API 的 一 个 有 趣 特性 是 ， 如 果 参 数 不 是 设置 或 少数 几 个 已 知 参数 的 话 ， 
它 将 会 被 作为 参数 传 给 仆 虫 。 默 认 情 况 下 ， 扑 虫 参数 将 会 成 为 假 虫 属 
性 ， 未 知 的 FEED_URI 参数 将 会 去 查阅 爬虫 的 属性 。 因 此 ， 通 过 传 
batch 参数 给 schedule.json ， 我 们 可 以 在 FEED_URI 中 使 用 它 以 避 
PIER. 


最 后 一 步 是 使 用 编码 为 JSON 的 该 批 次 详情 页 URL 编 译 
为 DISTRIBUTED。 START_URLS 设置 。 除 了 熟悉 和 简单 之 外 ， 使 用 该 格 
式 并 没有 什么 特殊 的 理由 。 任 何 文本 格式 都 可 以 做 到 。 


通过 命令 行 向 Scrapy 传 输 大 量 数据 丝 训 也 不 优雅 。 在 一 些 时 候 ， 你 想 要 
将 参数 存储 到 数据 存储 中 (比如 Redis) ， 并 且 只 向 Scrapy 传 输 ID 。 如 果 想 要 
这 样 做 ， 则 需要 在 _ flush_urls() 和 process_start_requests() 中 做 一 
些小 的 改变 。 

















我 们 使 用 treq.post() 处 理 POST 请 求 。Scrapyd 对 持久 化 连接 处 理 
得 不 是 很 好 ， 因 此 使 用 persistent=False 禁用 该 功能 。 为 了 安全 起 
见 ， 我 们 还 设置 了 一 个 5 秒 的 超时 时 间 。 有 趣 的 是 ， 我 们 为 该 请 求 
在 _scrapyd_submits_to_wait 列表 中 存储 了 延迟 函数 ， 后 续 内 容 中 
将 会 进行 讲解 。 关 闭 该 函数 时 ， 我 们 将 重 置 _urls 列表 ， 并 增加 当前 的 

batch 值 。 








出 人 意料 的 是 ， 我 们 在 关闭 操作 处 理 絮 中 发 现 了 如 下 所 示 的 诸多 功 


ap 
CC 


def _init (self, crawler): 


crawler.signals.connect(self._ closed, signal=signals.spider_ 
closed) 


@defer.inlineCallbacks 


def _closed(self, spider, reason, signal, sender): 
# Submit any remaining URLs 
self. flush_urls(spider) 


yield defer.DeferredList(self. scrapyd submits to wait) 








_close() 将 会 在 我 们 按 下 Ctrl + C 或 仆 取 完成 时 被 调用 。 无 论 哪 
种 情况 ， 我 们 都 不 希望 丢失 属于 最 后 一 个 批 次 的 任何 URL， 因 为 它们 还 
没有 被 发 送出 去 。 这 就 是 为 什么 我 们 在 _close() 方法 中 首先 要 做 的 是 
调用 _flush_urls(spider) 清空 最 后 的 批 次 的 原因 。 第 二 个 问题 是 ， 
作为 非 阻塞 代码 ， 任 何 treq.post() 在 停止 仆 取 时 都 可 能 完成 或 没有 
完成 。 为 了 避免 丢失 任何 批 次 ， 我 们 将 使 用 之 前 提 及 的 
scrapyd_submits_to_wait 列表 ， 来 包含 所 有 的 treq.post() 的 延迟 
函数 。 我 们 使 用 defer .DeferredList() 进行 等 待 ， 直 到 全 部 完成 。 
由 于 _close() 使 用 了 @defer.inlineCallbacks ， 我 们 只 需 对 其 执 
行 yield 操作 ， 并 在 所 有 请 求 完成 之 后 进行 恢复 即 可 。 


总 结 来 说 ， 在 DISTRIBUTED_START_URLS 设置 中 包含 批量 URL 的 
任务 将 被 送 往 Scrapyd 服 务 器 ， 并 在 这 些 Scrapyd 服 务 嚣 中 运行 相同 的 的 
虫 。 很 明显 ， 我 们 需要 某 种 方式 以 使 用 该 设置 初始 化 start_urls 。 


11.43 ”从 设置 中 获取 初始 UREL 


当 你 注意 到 疏 虫 中 间 件 提供 的 用 于 处 理 爬 虫 给 我 们 的 
start_requests 的 process_start_requests() 方法 时 ， 就 会 感受 
到 疏 虫 中 间 件 是 怎样 满足 我 们 的 需求 的 。 我 们 检 
测 DISTRIBUTED_START_URLS 设置 是 否 已 被 设 定 ， 如 果 是 的 话 ， 则 解 
人 码 JSON 并 使 用 其 中 的 URL 对 相关 的 Request 进行 yield 操作 。 对 于 这 
些 请 求 ， 我 们 设置 CrawlSpider 的 _response_download() 方法 作为 
回调 ， 并 设置 meta['rule'] 参数 ， 以 便 其 Response 能 够 被 适当 的 
Rule 处 理 。 坦 白 来 说 ， 我 们 查阅 了 Scrapy 的 源 人 代码， 发 现 
CrawlSpider 创建 Request 的 方式 使 用 了 相同 的 方法 。 在 本 例 中 ， 代 
人 码 如 下 所 示 。 








def _ init (self, crawler): 


self. start urls = settings.get('DISTRIBUTED_ START_URLS', None) 
self.is_worker = self. start urls is not None 


def process _start_requests(self, start_requests, spider): 
if not self.is_ worker: 
for x in start_requests: 
yield x 
else: 
for url in json.loads(self._start_urls): 
yield Request(url, spider. response downloaded, 
meta={'rule': self. target}) 





我 们 的 中 间 件 已 经 准备 好 了 。 可 以 在 settings.py 中 局 用 它 并 进 
行 设置 。 





SPIDER_MIDDLEWARES = { 
"properties.middlewares.Distributed': 100, 


} 
DISTRIBUTED_TARGET_RULE = 1 


DISTRIBUTED_BATCH_SIZE = 2000 
DISTRIBUTED_TARGET_FEED_URL = ("ftp://anonymous@spark/" 


"x%(batch)s %(name)s %(time)s.j1") 
DISTRIBUTED_TARGET_HOSTS = [ 
"scrapyd1:6800", 
"scrapyd2:6800", 
"scrapyd3:6800", 





一 些 人 可 能 会 认为 DISTRIBUTED_TARGET_RULE 不 应 该 作为 设置 ， 
因为 不 同 爬 虫 之 间 可 能 是 不 一 样 的 。 你 可 以 将 其 认为 是 默认 值 ， 并 且 可 
以 在 怜 虫 中 使 用 custom_settings 属性 进行 履 写 ， 比 如 : 


custom_settings = 
"DISTRIBUTED_TARGET_RULE': 3 


} 





不 过 在 我 们 的 例子 中 并 不 需要 这 么 做 。 我 们 可 以 做 一 个 测试 运行 ， 
候 取 作为 设置 提供 的 单个 页 面 。 
$ scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS='["http: //web:9312/properties/property_000000.htm1" 
] 里 





当 疏 取 成 功 后 ， 可 以 答 试 更 进一步 ， 疏 取 页 面 后 使 用 FTP 传 输 给 
Spark 服 务 器 。 





scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS='["http: //web:9312/properties/property_90Q@@@ee. 


html"]" \ 


-s FEED_URI='ftp://anonymous@spark/%(batch)s %(name)s_%(time)s.jl' -a batc 
h=12 








如 果 你 通过 ssh 登 录 到 Spark 服 务 占 中 〈 稍 后 会 有 更 多 介绍 ) ， 将 会 


看 到 一 个 文件 位 于 /root/items 目录 中 ， 比 如 
12 distr date time.jl. 


上 述 是 使 用 Scrapyd 实 现 分 布 式 爬 取 的 中 间 件 的 示例 实现 。 你 可 以 
使 用 它 作 为 起 点 ， 实 现 满足 自己 特殊 需求 的 版 本 。 你 可 能 需要 适 配 的 事 
情 包 括 如 下 内 容 。 





。 文 持 的 爬虫 类 型 。 比 如 ， 一 个 不 局 限于 Crawlspider WERT 
可 能 需要 你 的 疏 虫 通过 适当 的 meta 以 及 采用 回调 命名 约定 的 方式 

来 标记 分 布 式 请 求 。 

© 问 Scrapyd 传 输 URE 的 方式 。 你 可 能 希望 使 用 特定 域名 信息 来 减少 
传输 的 信息 量 。 比 如 ， 在 本 例 中 ， 我 们 只 传输 了 房产 的 ID。 

。 你 可 以 使 用 更 优雅 的 分 布 式 队列 解决 方案 ， 使 肘 虫 能 够 从 失败 中 恢 
复 ， 并 允许 Scrapyd 将 更 多 的 URL 提 交 到 批 处 理 。 

。 你 可 以 动态 填充 目标 服务 器 列表 ， 以 支持 按 需 扩展 。 
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台 服 务 器 添加 到 scrapy.cfg 文件 中 。 该 文件 中 的 每 个 





[deploy:target-name] 区 域 都 定义 了 一 个 新 的 部 署 目 标 。 


$ pwd 


/root/book/ch11/properties 


$ cat scrapy.cfg 


[deploy: scrapyd1 ] 


url = http://scrapyd1:6800/ 


[deploy:scrapyd2 ] 


url = http://scrapyd2:6800/ 


[deploy: scrapyd3 ] 


url = http://scrapyd3:6800/ 





可 以 通过 scrapyd-deploy -1 查询 当前 可 用 的 目标 。 





$ scrapyd-deploy -1 


scrapyd1 http: //scrapyd1:6800/ 


scrapyd2 http: //scrapyd2:6800/ 


scrapyd3 http: //scrapyd3:6800/ 





iit scrapyd-deploy <target-name> ， 可 以 很 容易 地 部 署 任 意 
服务 器 。 


$ scrapyd-deploy scrapyd1 
Packing version 1449991257 
Deploying to project "properties" in http://scrapyd1:6800/addversion. json 


Server response (200): 


{"status": "ok", "project": "properties", "version": "1449991257", 


"spiders": 2, "node name": "scrapydi"} 





该 过 程 会 留 给 我 们 一 些 额 外 的 目录 和 文件 (build 
、project.egg-info 、setup.py ) ， 我 们 可 以 安全 地 删除 它们 。 本 
ME, scrapyd-deplo``y 所 做 的 事情 就 是 打包 你 的 项 目 ， 并 使 
用 addversion.json 上 传 到 目标 Scrapyd 服 务 器 当中 。 





之 后 ， 当 我 们 使 用 scrapyd-deploy -L 查询 单 台 服务 器 时 ， 可 以 
确认 项 目 是 否 已 经 被 成 功 部 署 ， 如 下 所 示 。 


$ scrapyd-deploy -L scrapyd1 


properties 





我 还 在 项 目 目录 中 使 用 touch 创建 了 3 个 空 文件 (scrapyd1-3 
。 使 用 scrapyd* 扩展 为 文件 名 称 ， 同 样 也 是 目标 服务 器 的 名 称 
后 ， 你 可 以 使 用 一 个 bash 循 环 部 署 所 有 服务 器 : for i in scrapyd*; 
do scrapyd-deploy $i; done. 





11.5 创建 自 定义 监控 命令 





如 果 想 监控 多 台 Scrapyd 服 务 器 的 人 息 虫 进程 ， 则 需要 手动 执行 。 这 

是 一 个 很 好 的 机 会 ， 能 够 让 我 们 练习 到 目前 为 止 所 见 到 的 一 切 知 识 ， 创 
建 一 个 原始 的 Scrapy 命 令 一 一 scrappy monitor ， 用 于 监控 一 组 
Scrapyd 服 务 器 。 我 们 将 该 文件 命名 为 monitor.py ， 并 且 
在 settings.py 文件 中 添加 COMMANDS_MODULE = 
'properties.monitor' 。 通 过 快速 浏览 Scrapyd 的 文档 ， 我 们 发 现 
listjobs.json 这 个 API 可 以 为 我 们 提供 任务 相关 的 信息 。 如 果 想 要 找 
到 给 定 目 标的 基础 URL， 可 以 猪 到 它 一 定 在 scrapyd-deploy 代码 中 的 
某 个 地 方 ， 从 而 可 以 让 我 们 在 单个 文件 中 找到 它 。 如 果 查 


看 https://github.com/scrapy/scrapyd- 
client/blob/master/scrapyd-client/scrapyd-deploy ， 很 快 就 
会 发 现 _get_target() 孔 数 (由 于 其 实现 没有 添加 太 多 值 ， 因 此 我 会 
忽略 它 )， 在 该 函数 中 将 会 给 我 们 提供 目标 名 称 及 其 基础 URL。 太 棒 
T! 我 们 开始 实现 该 命令 的 第 一 部 分 吧 ， 其 代码 如 下 所 示 。 


class Command(ScrapyCommand): 
requires project = True 


def run(self, args, opts): 
self. to monitor = {} 
for name, target in self. get targets().iteritems(): 
if name in args: 
project = self.settings.get('BOT_NAME' ) 


url = target['url'] + "listjobs.json?project=" + project 
self. to _monitor[name] = url 


l = task.LoopingCall(self._ monitor) 
l.start(5) # call every 5 seconds 


reactor.run() 





目前 我 们 所 看 到 的 实现 还 是 很 简单 的 。 它 使 用 目标 名 称 和 我 们 想 要 
监控 的 API 地 址 填充 to_monitor 字典 。 然 后 ， 我 们 使 
用 task.LoopingCall() 计划 到 _monitor() 方法 的 定期 调 
用 。_monitor() 方法 使 用 了 treq 和 延迟 操作 ， 而 我 们 使 用 了 
@defer.inlineCallbacks 来 简化 其 实现 。 下 面 是 其 代码 (已 忽略 一 
些 错误 处 理 和 装饰 ) 。 





@defer.inlineCallbacks 
def _monitor(self): 
all_deferreds = [] 
for name, url in self. _to_monitor.iteritems(): 
d = treq.get(url, timeout=5, persistent=False) 
d.addBoth(lambda resp, name: (name, resp), name) 


all_deferreds.append(d) 


all_resp = yield defer.DeferredList(all_deferreds) 


for (success, (name, resp)) in all resp: 
json_resp = yield resp. json() 
print "%-2@s running: %d, finished: %d, pending: %d" % 
(name, len(json_resp[ 'running']), 
len(json_resp['finished']), len(json_resp[ 'pending' ]) ) 





上 面 这 些 行 已 经 包含 了 我 们 知道 的 几乎 所 有 Twisted 技 术 。 我 们 使 
用 treq 调用 Scrapyd 的 API， 并 且 使 用 defer.DeferredList 立即 处 理 
HAW. SREMA AREA Sall resp 之 后 ， 则 开始 迭代 并 获 
取 其 JSON 对 象 。treq Response 的 json() 方法 将 会 返回 延迟 操作 ， 
而 不 是 真实 值 ， 我 们 对 其 执行 了 yield 操作 ， 并 会 在 未 来 的 某 个 时 间 点 
恢复 其 真实 值 。 最 后 一 步 ， 我 们 打印 出 结果 。JSON 啊 应 包含 待 处 理 、 
运行 中 及 已 完成 任务 列表 的 信息 ， 我 们 将 打印 出 它们 的 长 度 。 








11.6 {€H Apache Spark 流 计算 偏 移 量 


此 刻 ， 我 们 的 Scrapy 系 统 功能 齐全 。 现 在 ， 让 我 们 快速 看 一 下 
Apache Spark 的 功能 。 


在 本 章 最 开始 介绍 的 公式 shiftworm 非常 简单 好 用 ， 但 是 无 法 有 效 实 
现 。 我 们 可 以 通过 两 个 计数 器 计算 Price ， 使 用 2-nioms 个 计数 器 计算 
Pricewith ， 每 个 新 价格 只 需 更 新 其 中 的 4 个 。 不 过 计算 Pricewithout 则 是 一 
个 很 大 的 问题 ， 因 为 对 于 每 个 新 价格 来 说 ， 都 需要 更 新 2:(nwerms -1) 个 计 
数 器 。 比 如 ， 我 们 需要 添加 jacuzzi 的 价格 到 每 个 Pricerow 计数 器 中 ， 
而 不 是 只 有 jacuzzi 这 一 个 。 这 会 造成 算法 由 于 包含 大 量 条 件 而 不 可 行 。 








为 了 解决 该 问题 ， 我 们 所 能 注意 到 的 是 ， 如 采 我 们 将 带 茶 个 条 件 的 
房产 价格 ， 与 不 带 相同 条 件 的 房产 价格 相 加 ， 将 会 得 到 所 有 房产 的 价格 
(很 明显 ! ) ， 即 2Price = 2ZPrice | ,ip +2Price | without 。 因 此 ， 不 带 某 

个 条 件 的 房产 平均 价格 可 以 使 用 如 下 的 代价 很 小 的 操作 进行 计算 。 


Iria ric ric 
so ) |, Pricéwithat — >> Price = J, Price|.without 
Price RS TE ees 


N without N — Nwith 


EHIZAN, tits A VBE FAR. 








Shi f tter m = ( 


Timith N — Tmth n 


S* Pricel,, SS» Price — X` Pricel,, S* Price 
La with Z 4 rae with pLa 


现在 让 我 们 看 看 如 何 实现 该 公式 。 请 注意 此 处 不 是 Scrapy 的 代码 ， 
因此 感到 有 些 陌生 是 很 正常 的 ， 不 过 你 仍然 可 以 不 费 太 多 力气 就 能 阅读 
并 理解 该 代码 。 你 可 以 在 boostwords .py 中 找到 该 应 用 。 请 记 住 该 代 
码 中 包含 很 多 复杂 的 测试 代码 ， 你 可 以 安全 地 忽略 它们 。 其 核心 代码 如 
下 所 示 。 
# Monitor the files and give us a DStream of term-price pairs 


raw_data = raw_data = ssc.textFileStream(args[1]) 
word_prices = preprocess(raw_data) 


# Update the counters using Spark's updateStateByKey 
running word_prices = word_prices.updateStateByKey(update_state_function) 


# Calculate shifts out of the counters 
shifts = running word_prices.transform(to_shifts) 


# Print the results 
shifts .foreachRDD(print_shifts) 





Spark 使 用 所 谓 的 DStream 表示 数据 流 。textFileSstream( ) 方法 
监控 文件 系统 的 目录 ， 当 它 检测 到 新 文件 时 ， 将 会 从 中 获取 数据 





流 。preprocess() 函数 将 其 转变 为 条 件 / 价 格 对 的 数据 流 。 我 们 通过 

Spark 的 updateStateByKey() 方法 ， 使 用 update_state o 
函数 ， 在 运行 的 计数 器 中 聚合 这 些 条 件 /价格 对 。 最 后 ， 

行 to_shifts() 计算 偏 移 量 ， 并 使 用 print_shifts()E ener 

佳 结果 。 我 们 的 大 部 分 功能 都 很 简单 ， 它 们 只 是 按照 对 Spark 高 效 的 方 

式 形成 数据 。 最 有 意思 的 例外 是 我 们 的 to_shifts() 函数 。 





def to shifts(word prices): 
(sum@, cnt@) = word prices.values().reduce(add tuples) 
avg6 = sum@ / cnt6 


def calculate_shift((isum, icnt)): 
avg_with = isum / icnt 
avg without = (sum@ - isum) / (cnt6 - icnt) 
return (avg with - avg without) / avg@ 


return word_prices.mapValues(calculate_shift) 





它 如 此 紧密 地 遵循 公式 ， 令 人 印象 非常 深刻 。 除 了 其 简单 性 之 外 ， 
Spark 的 mapValues() 使 我 们 的 (可 能 多 台 ) Spatk 服 务 器 能 够 以 最 小 网 
络 开 销 高 效 运行 calculate_shift 。 


11.7 运行 分 布 式 有 息 取 


我 通常 使 用 4 个 终 es 为 了 使 本 节 自 成 一 体 ， 
因此 我 还 为 你 提供 了 打开 到 相关 服务 器 终端 的 vagrant ssh 命令 〈 见 
图 11.3) 。 











‘properties 十 


CONTAINER CPU % MEM USAGE / LIMIT scrapyd1 running; 4, finished; 13, pending: @ 

dev 0.02% 60.2 MB / 4,145 GB a scrapyd2 running: 4, finished: 13, pending: 0 

es 0.32% 245.2 MB 145 5 scrapyd3 running: 4, finished: 12, pending: @ 
mysql 0.05% 534.7 MB .145 

redis 0.12% 7.733 MB .145 

scropyd1 130.50% 204,7 MB ,145 

scrapyd2 117.24% 193.9 MB ,145 - L "es 

Í scrapyd3 104.90% 197.7 MB / 4.145 s \ Ope 


k 1.02% 753.3 MB 145 A 
aa E 37.978 55-2 87 5 ca 2 i sraji 


root@dev: ~/book/ch1 


SNANNANAAN 
PP PRR RES 


scrapybook 一 root@spark: ~ — S... 
root@spark: ~ + 


4 [properties.middlewares] INFO: Posting batch 1 2000 URLs x ‘, @.37739569641092147), 
a [properties.middlewares] INFO: Posting batch 2000 URLs @. 2609822763035133), 

:37 [properties.middlewares] INFO: Posting batch i 2000 URLs $ @.17968955547361667), 
:39 [properties.middlewares] INFO: Posting batch i 2000 URLs @.16255286743694053), 
:40 [properties.middlewares] INFO: Posting batch i 200@ URLs 14266264458585862), 

:42 [properties.middlewares] INFO: Posting batch ith 2080 URLs to scrapyd1:6800 

:43 [properties.middlewares] INFO: Posting batch 2 i 2000 URLs scrapyd2:68@0 . 165978398424521), 

:45 [properties.middlewares] INFO: Posting batch ith 2000 URLs to scrapyd3:6800 -0 .28388620856061686), 
:46 [properties.middlewares] INFO: Posting batch i 2000 URLs to scrapyd1:6806 3503946343514336), 

:47 [scrapy] INFO: Closing spider (finished) 0. 3673718785236563), 
2015-12-13 16:04:47 [properties.middlewares] INFO: Posting batch i 570 URLs to scrapyd2: 6800 . 38401972065998013)) 
2015-12-13 16:04:47 [scrapy] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 474372, 
"downLoader/request_count’: 1686, 
*downLoader/request_method_count/GET': 1686, 
'downLoader/response_bytes': 34321988, 
'downloader/response.count": 1686; spark-submit bookich11/boostwords. py items 
'downloader/response_status_count/2@0': 1686, 

"dupefilter/filtered': 19, 

"finish_reason'; ‘finished’, 

*finish_time': datetime.datetime(2@15, 12, 13, 16, 4, 47, 681065), 
"Log_count/INFO’: 33, 

*request_depth_max': 85, 

"response_received_count': no 
"scheduler/dequeued': 1686, 3 = Ne 

"scheduler/dequeved/mesory': 1686, fori iin scrapyd’: a“ fovea: deploy $i; done 
'scheduler/enqueued': 1686, 

'scheduler/enqueued/memory': 1686, scrapy crawl distr 

'start_time': datetime.datetime(2015, 12, 13, 16, 4, 9, 430900} 

2015-12-13 16:04:47 [scrapy] INFO: Spider closed (finished) 

root@dev:~/book/chil/properties# 


2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 


SEE 


ra 
MI 








图 11.3 ”使 用 4 个 终端 监控 疏 取 


在 终端 1 中 ， a a 这 有 助 
于 识别 和 修复 潜在 问题 。 要 想 启 动 它 ， 可 运行 如 下 命 





$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider’ | awk '{print \$1}'" 


$ vagrant ssh $(provider_id) 


$ docker ps --format "{{.Names}}" | xargs docker stats 


| Sò 


前 面 两 行 稍微 复杂 的 代码 允许 通过 ssh 登 录 到 docker provider VM 
中 。 如 果 使 用 的 不 是 虚拟 机 ， 而 是 运行 在 docker 驱 动 的 Linux 机 器 上 ， 那 
么 只 需要 最 后 一 行 。 





第 2 个 终端 同样 用 于 诊断 ， 一 般 按 照 如 下 命令 使 用 它 运 行 scrapy 


monitor 。 


$ vagrant ssh 


$ cd book/ch11/properties 


$ scrapy monitor scrapyd* 





请 记 住 使 用 scrapyd* 以 及 以 服务 器 名 称 命名 的 空 文件 ，scrapy 
monitor scrapyd* 将 被 扩展 为 scrapy monitor scrapyd1 
scrapyd2 scrapyd3 。 


a 我 们 在 这 里 局 动 息 虫 。 除 此 之 外 ， 大 
部 分 时 间 是 空 亲 的 。 如 果 想 要 局 动 一 个 新 的 肘 虫 ， 可 以 执行 如 下 命令 。 





$ vagrant ssh 


$ cd book/ch11/properties 


$ for i in scrapyd*; do scrapyd-deploy $i; done 


$ scrapy crawl distr 











最 后 两 行 是 最 基本 的 。 首 先 ， 我 们 使 用 for 循环 及 scrapyd- 
deploy 部 署 朴 虫 到 服务 器 中 。 然 后 ， 使 用 scrapy crawl distr 启动 
候 取 操作 。 我 们 也 可 以 运行 更 少 的 候 取 操作 ， 比 如 scrapy crawl 
distr -s CLOSESPIDER_PAGECOUNT=166 ， 以 爬 取 大 约 100 个 索引 
页 ， 相 当 于 大 概 3000 个 详情 页 。 


最 后 的 第 4 个 终端 用 于 连接 Spark 服 务 费 ， 我 们 将 使 用 它 运 行 数据 沈 
分 析 任 务 。 
$ vagrant ssh spark 
$ pwd 
/root 
$ 1s 


book items 


$ spark-submit book/ch11/boostwords.py items 











只 有 最 后 一 行 是 最 基本 的 ， 在 该 行 中 运行 了 boostwords .py ， 并 
将 我 们 本 地 的 items 目录 提供 给 监控 。 有 时 ， 我 还 会 使 用 watch Is -1 
items 来 关注 Item 文 件 的 到 达 情 况 。 





完 葛 哪些 关键 词 对 价格 影响 最 大 呢 ? 我 把 它 作为 惊喜 ， 留 给 那些 一 
直 跟 随 下 来 的 读者 们 。 


11.8 ”系统 性 能 
在 性 能 方面 ， 结 果 很 大 程度 上 取决 于 我 们 的 硬件 情况 ， 以 及 我 们 给 


虚拟 机 的 CPU 数 量 和 内 存 大 小 。 在 实际 部 署 中 ， 我 们 可 以 获得 水 平 的 伸 
缩 性 ， 可 以 让 我 们 以 服务 器 允许 的 最 快速 度 运行 爬 取 。 








对 于 给 定 设置 情况 下 的 理论 最 大 值 是 : 3 个 服务 器 4 个 处 理 器 /服务 
恬 .16 个 并 发 请 求 . 4 个 页 面 / 秒 《〈 通 过 页 面 下 载 延 迟 定 义 ) = 768 个 页 面 / 


秒 。 


实践 时 ， 在 Macbook Pro 中 使 用 分 配 了 4GB 内 存 以 及 8 核 CPU 的 
VirtualBox 虚 拟 机 ， 我 可 以 在 2 分 40 秒 的 时 间 内 获取 50,000 个 URL， 也 就 
是 大 约 315 个 页 面 / 秒 。 在 拥有 2 个 vVCPU 和 8GB 内 存 的 Amazon EC2 
m4.large 实 例 中 ， 由 于 有 限 的 CPU 能 力 ， 花 费 了 6 分 12 秒 的 时 间 ， 即 134 
个 页 面 / 秒 。 在 拥有 16 个 vCPU 和 64GB 内 存 的 Amazon EC2 m4.4xlarge 实 
例 中 ， 疏 取 完 成 时 间 是 1 分 44 秒 ， 即 480 个 页 面 / 秒 。 在 同一 台 机 器 中 ， 
我 将 Scrapyd 的 实例 数量 加 倍 ， 即 增加 到 6 个 (只 需 编辑 Vagrantfile 
、scrapy.cfg 以 及 settings.py ) ， 此 时 扑 虫 完成 时 间 为 1 分 15 秒 ， 
即 其 速度 为 667 个 页 面 / 秒 。 在 最 后 一 种 情况 下 ， 我 们 的 Web 服 务 絮 似乎 





Bl SHAS CESK RAS BT) 。 


我 们 得 到 的 性 能 与 理论 最 大 值 之 间 的 距离 是 合理 的 。 有 很 多 小 的 延 
述 在 我 们 的 粗略 计算 中 是 没有 考虑 进去 的 。 尽 管 我们 之 前 声称 有 250ms 
的 页 面 加载 延 迟 ， 但 是 在 前 面 的 章节 中 可 以 看 到 该 延迟 实际 上 更 大 ， 因 
为 至 少 还 有 Twisted 和 操作 系统 的 延 运 。 男 外 ， 还 有 一 些 其 他 延迟 ， 比 
如 URL 从 开发 机 传输 到 Scrapyd 服 务 器 的 时 间 、 我 们 息 取 的 Item 通过 
FTP 传 给 Spark 的 时 间 以 及 Scrapyd 发 现 和 计划 任务 所 花费 的 时 间 〈 平 均 
2.5 秒 一 一 参考 Scrapyd 的 poll_interval 设置 ) 。 此 外 ， 还 有 开发 机 以 
及 Scrapyd 疏 取 的 局 动 时 间 没 有 计算 进来 。 我 将 不 会 尝试 改善 这 些 延 迟 
中 的 任何 一 个 ， 除 非 能 确定 它们 可 以 提升 吞吐 量 。 我 的 下 一 步 是 增加 疏 
取 的 大 小 《 毕 如 50 万 个 页 面 ) 、 负 载 均 衡 几 个 web 服务 器 实例 以 及 在 我 
们 的 扩展 尝试 中 发 现下 一 个 有 趣 的 挑战 。 

















11.9 关键 要 点 





本 章 最 重要 的 要 点 是 ， 如 果 你 想 运 行 分 布 式 仆 虫 ， 则 应 当 使 用 合适 
的 批 次 大 小 。 


根据 源 网 站 的 啊 应 速度 ， 你 可 能 有 数 百 、 数 干 其 至 数 万 个 URL。 你 
会 希望 它们 足够 大 ， 达 到 几 分 钟 的 级 别 ， 以 便 能 够 分 挫 局 动 成 本 。 而 男 
一 方面 ， 你 又 不 希望 它们 过 大 ， 因 为 这 将 会 使 机 器 故障 成 为 主要 风险 。 
在 容错 分 布 式 系统 中 ， 你 可 以 重 试 失败 的 批 次 ， 但 你 不 会 希望 这 将 给 你 
带 来 几 个 小 时 的 工作 量 。 





110) Ar he 


我 希望 你 能 喜欢 这 本 关于 Scrapy 的 书 ， 束 像 我 编写 它 那 样 。 你 现在 
己 经 对 Scrapy 的 能 力 有 了 非常 丰富 的 了 解 ， 并 且 能 够 使 用 它 实现 或 简单 
或 复杂 的 仆 虫 场景。 你 也 会 对 使 用 这 样 一 个 高 性 能 系统 并 充分 利用 它 进 
行 开发 的 复杂 性 有 所 了 解 。 使 用 谎 虫 ， 你 可 以 通过 目 己 的 应 用 及 时 获取 
现实 世界 中 的 大 规模 数据 集 。 我 们 已 经 看 到 了 使 用 Scrapy 数 据 集 构建 手 
机 应 用 及 实现 有 趣 分 析 的 方式 。 和 希望 你 能 使 用 Scrapy 开 发 出 优秀 、 创 新 
的 应 用 ， 让 我 们 的 世界 变 得 更 好 。 祝 你 好 运 ! 











附录 A ” 必 备 软件 的 安装 与 故障 排除 


A1 必 备 软件 的 安装 


本 书 使 用 了 庞大 的 虚拟 服务 器 系统 演示 现实 中 多 服务 器 部 署 环 境 下 
的 Scrapy 使 用 。 我 们 使 用 了 行业 标准 工具 一 -Vagrant 和 Docker， 来 搭建 
该 系统 。 由 于 本 书 严 重 依赖 于 网 站 内 容 和 布局 ， 如 果 我 们 使 用 不 可 控 的 
网 站 ， 那 么 我 们 的 例子 将 会 在 几 个 月 的 时 间 之 后 无 法 使 用 。Vagrant 和 
Docker 为 我 们 提供 了 一 个 独立 的 环境 ， 在 这 里 我 们 的 示例 无 论 现 在 还 是 
以 后 都 能 正音 运行 。 作 为 附 融 的 好 处 ， 我 们 不 会 访问 任何 远程 服务 器 ， 
因此 就 不 会 对 任何 网 站 管理 者 造成 不 便 。 即 使 我 们 破坏 了 某 些 东西 ， 造 
成 示例 无 法 工作 ， 也 可 以 使 用 两 个 命令 : vagrant destroy 和 
vagrant up --no-parallel ， 销 毁 并 重建 系统 ， 继 续 运 行 。 








在 开始 之 前 ， 我 需要 说 明 一 下 ， 该 基础 架构 是 专门 为 本 书 读者 的 需 
求 定 制 的 。 尤 其 是 有 关 Docker 的 部 分 ， 普 过 共识 是 每 个 Docker 容 器 应 当 
是 只 运行 单一 进程 的 微服 务 。 我 们 并 没有 这 么 做 。 我 们 的 很 多 Docker 容 
器 都 比较 重 ， 我 们 可 以 使 用 vagrant ssh 连接 它们 并 执行 各 种 操作 。 
尤其 是 我 们 的 开发 机 看 起 来 一 点 也 不 像 微 服务 。 这 是 我 们 去 往 该 隔离 系 
统 的 用 户 友好 的 网 关 ， 我 们 将 其 视 为 功能 齐全 的 Linux 机 器 。 如 采 我 们 
不 使 用 这 种 方式 改变 规则 ， 就 必须 使 用 大 量 的 Vagrant 和 Docker 命 令 ， 更 
加 深入 地 排查 故障 ， 在 这 种 情况 下 本 书 将 很 快 变 为 Vagrant/Docker 书 
籍 。 我 希望 Docker 爱 好 者 能 够 原谅 我 们 ， 并 且 每 位 读者 能 够 享受 到 





Vagrant 和 Docker 带 给 我 们 的 方便 和 益处 。 


本 书 中 的 容器 不 适用 于 生产 环境 。 





我 们 不 可 能 测试 每 个 软件 /硬件 的 配置 。 假 设 某 些 地 方 无 法 工作 ， 
如 果 可 以 的 话 ， 请 修复 它 并 在 GitHub 中 向 我 们 发 送 一 个 Pull Request。 如 
果 你 不 知道 如 何 修复 ， 那 么 请 在 GitHub 上 搜索 相关 issue， 如 果 不 存在 的 
话 请 打开 一 个 新 的 issue。 


A2 系统 


本 节 用 于 参考 。 你 可 以 先 跳 过 本 节 内 容 ， 当 想 要 更 好 地 理解 本 书 系 
统 的 构成 方式 时 ， 可 以 返回 来 阅读 本 市 。 我 们 在 相关 半 市 中 重复 了 本 市 


中 的 部 分 信息 。 














我 们 使 用 Vagrant 构 建 了 如 下 系统 〈 见 图 A.1) 。 
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(scrapybook/spark) 
Ubuntu Trusty + pure-ftpd 
+ Apache Spark 
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Ubuntu Trusty + scrapyd 





图 A.1 本 书 使 用 的 系统 





在 图 A.1 中 ， 每 个 方 框 表示 一 台 服 务 器 ， 主 机 名 是 其 标题 的 第 一 部 
分 (dev. Web. es) 。 标 题 的 第 二 部 分 是 其 使 用 的 Docker 镜 像 
(scrapybook/dev . scrapybook/web . scrapybook/es 等 ) 。 下 
面 是 运行 在 该 服务 右上 的 软件 的 简要 描述 。 线 段 表 示 不 同 服务 器 之 间 的 
链接 ， 其 协议 写 在 线段 旁边 。Docker 所 提供 的 隔离 的 一 部 分 是 不 允许 超 
出 显 式 声明 的 连接 。 也 融 是 说 ， 比 如 你 想 在 Spark 服 务 恬 上 使 用 1234 端 
口 监听 某 些 东西 ， 除 非 你 在 Vagrant 文 件 中 添加 相关 声明 暴露 该 端口 ， 
否则 没有 人 能 连接 到 该 端口 。 请 记 住 这 一 点 ， 以 避免 在 其 他 服务 器 中 安 
装 目 定 义 软件 时 出 现 问题 。 





在 大 部 分 章节 中 ， 我 们 只 会 使 用 到 两 个 机 器 : dev 和 web 

o vagrant ssh 可 以 让 我 们 连接 到 开发 机 中 。 我 们 可 以 从 这 里 使 用 主 
机 名 很 轻松 地 访问 其 他 机 器 (mysql 、web 等 ) 。 我 们 可 以 通过 执行 如 
ping web 的 操作 来 确认 能 否 访问 web 机 器 。 我 们 在 每 章 中 使 用 并 解释 
了 很 多 命令 。 第 9 章 演 示 了 如 何 推送 数据 到 不 同 的 数据 库 。 第 11 章 使 用 
了 3 个 运行 Scrapyd 的 Docker 容 器 (实际 上 与 开发 机 相同 ， 以 减少 下 载 大 
小 ) ， 这 些 机 器 的 主机 名 分 别 是 scrapyd1-3 。 我 们 还 使 用 了 一 个 主机 
名 为 spark 的 服务 器 ， 用 于 运行 Apache Spark 以 及 FTP 服 务 。 可 以 使 

用 vagrant ssh spark 连接 该 服务 器 ， 并 运行 Spark 任 务 。 





可 以 在 GitHub 顶 级 目录 的 Vagrantfile 中 找到 该 系统 的 描述 。 当 
输入 vagrant up --no-parallel 时 ， 系 统 将 开始 构建 。 这 将 会 花费 
几 分 钟 时 间 ， 尤 其 是 在 第 一 次 构建 时 ， 我 们 将 会 在 后 面 的 FAQ 中 了 解 到 
更 详细 的 介绍 。 可 以 看 到 ， 本 书 代 码 是 挂 载 在 ~/book 目录 当中 的 。 任 
何 时 候 我 们 在 宿主 机 修改 其 中 的 内 容 时 ， 变 更 都 会 自动 传播 。 这 样 我 们 
就 可 以 使 用 文本 编辑 器 或 IDE 修 改 文件 ， 并 且 可 以 在 开发 机 中 快速 查看 
WILT: 


最 后 ， 一 些 监听 端口 被 转发 到 我 们 的 宿主 机 中 ， 并 暴露 了 相关 的 服 
务 。 比 如 ， 你 可 以 使 用 一 个 简单 的 web 浏览 器 来 访问 它们 。 如 果 你 已 经 
在 计算 机 中 使 用 了 其 中 某 个 端口 ， 那 么 会 产生 冲突 ， 导 致 系统 构建 无 法 
成 功 。 我 们 将 会 在 后 面 的 FAQ 中 告知 你 如 何 解 决 这 种 情况 。 表 A.1 是 转 
发 的 端口 列表 。 


AAI 


a || 





机 器 和 服务 从 开发 机 访问 的 地 址 | 从 你 的 〈 和 宿主 ) 机 访问 的 地 址 


Web 一 eb 服 务 器 http://web:9312 http://localhost: 


dev—scrapyd http://dev: 6800 http://localhost: 


scrapyd1—scrapyd http: //scrapyd1:6800 http://localhost: 


scrapyd2—scrapyd http://scrapyd2:6800 http://localhost: 


scrapyd3—scrapyd http: //scrapyd3: 6800 http://localhost: 


es—Elasticsearch API http://es:9200 http://localhost: 


spark—FTP ftp://spark:21 & 30000-9 | ftp://localhost:21 & 30000-9 


Redis—Redis API redis://redis:6379 redis://localhost:6379 


MySQL - MySQL 数 据 库 mysql: //mysql: 3306 mysql://localhost: 3306 








部 分 机 器 的 ssh 也 是 暴露 的 ，Vagrant 负 责 为 我 们 重 定 向 并 转发 这 些 
端口 ， 以 避免 冲突 。 我 们 所 需要 做 的 束 是 运行 vagrant ssh 
<hostname> 来 访问 想 要 连接 的 机 器 。 


A.3 安装 概述 


我 们 所 需 安装 的 必要 软件 如 下 : 


e Vagrant; 
e git; 
e VirtualBox (Windows 或 Mac 主 机 ) 或 Docker (Linux 主 机 ) 。 


在 Windows 中 ， 可 能 还 需要 启用 git ssh 客户 端 。 你 可 以 访问 它们 
的 网 站 ， 并 遵照 它们 对 你 所 使 用 的 平台 描述 的 步 又 操作 。 在 下 面 几 市 
中 ， 我 们 将 尝试 提供 逐步 指引 方案 ， 目 前 来 说 这 些 方法 是 有 效 的 ， 不 过 
它们 肯定 会 在 未 来 某 个 时 间 失 效 ， 因 此 也 请 随时 关注 其 官方 文档 。 

















A.4 在 Linux 上 安装 





我 们 之 所 以 首先 介绍 如 何在 Linux 上 安装 系统 是 因为 它 是 最 简单 
的 。 我 将 以 Ubuntu 14.04.3 LTS (Trusty Tahr) 进 行 演 示 ， 不 过 该 过 程 在 其 
他 分 发 版 本 中 也 会 十 分 相似 ， 当 然 分 发 版 本 越 不 弟 匈 ， 你 就 越 能 了 解 如 
何 填补 其 中 的 差距 。 为 了 安装 Vagrant， 需 要 访问 Vagrant 的 网 站 : 
https://www.vagrant.com/ ， 并 浏览 其 下 载 页 。 碳 键 单 击 Debian 
package, 64-bit version 。 复 制 链 接地 址 ， 如 图 A.2 所 示 。 


Big WINDOWS 






(1) (2) click 
ME Universal (32 and 64-bit) 一 
Right-click on < i 
ae Open Link in New Tab » © terminal 
=a Opeg Link in New Wind = 2 Open) 
a D N Ope ek in icone dol fii. Applications oP 
a% 32-vit| p 
Seah Google com for “64-bit” 
[2 Print... s 
2 Am CENTO Ca Evoront. ta Minh Ninnor-------- ina 


图 A.2 


我 们 将 使 用 终端 安装 Vagrant， 因 为 这 是 最 通用 的 方式 ， 尺 管 可 以 
在 Ubuntu 上 通过 几 下 单 击 达成 相同 in 的 。 为 了 打开 终端 ， 需 要 单 击 屏幕 
左上 角 的 Ubuntu 图 标 来 打开 Dash 。 男 一 种 方案 是 ， 按 下 Windows 7% 
键 。 然 后 输入 terminal ， ae 图 标 以 打开 它 。 





我 们 输入 wget ， 并 粘贴 从 Vagrant 页 面 中 得 到 的 链接 。 几 秒 后 ， 将 
会 下 载 一 个 .deb 文件 。 输 入 sudo dpkg -I <name of the .deb 
file you just downloaded> 以 安装 文件 。 到 这 里 为 止 ，Vagrant 已 经 
被 安装 好 了 。 


pe git 只 需要 在 终端 中 输入 如 下 两 行 命令 


$ sudo apt-get update 


$ sudo apt-get install git 





现在 ， 让 我 们 来 安装 Docker。 我 们 将 按照 https://docs.docker. 
com/engine/ installation/ubuntulinux/ 的 指南 进行 安装 。 在 终 
端 中 ， 输 入 如 下 命令 。 





$ sudo apt-key adv --keyserver hkp://p86.pool.sks-keyservers.net:86 


--recv-keys 58118E89F3A912897C070ADBF76221572C52609D 


$ echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" | sudo 


tee /etc/apt/sources.list.d/docker.list 


$ sudo apt-get update 


$ sudo apt-get install docker-engine 


$ sudo usermod -aG docker $(whoami) 





我 们 登 出 并 再 重新 登录 以 应 用 分 组 变化 ， 此 时 ， 应 该 可 以 没有 问题 
地 使 用 docker ps 命令 了 。 现 在 ， 我 们 可 以 下 载 本 书 的 代码 ， 并 享受 本 
书 内 容 。 
$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 


$ vagrant up --no-parallel 





A.5 在 Windows 或 Mac 上 安装 





Windows 和 Mac 环 境 中 的 安装 过 程 是 相似 的 ， 因 此 我 们 将 一 起 介绍 
这 两 种 环境 下 的 安装 ， 并 凸显 它们 之 间 的 区 别 。 


A.5.1 安装 Vagrant 


为 了 安装 Vagrant， 我 们 需要 访问 Vagrant 的 网 站 : https://www. 
vagrantup.com/ ， 并 浏览 其 下 载 页 。 选 择 自己 的 操作 系统 ， 并 使 用 
安装 癌 导 进行 安装 ， 如 图 A.3 所 示 。 


















GOO [TE ~ Computer ~ System (Ci) = Users ~ Administrator ~ Downloads 
Organize v Indudeinlibrary v swe Windows 





Do you want to run this file? 





Name: .,.Users\Administrator \Downloads\vagrant_1.7.4.ms 





iq i 
=- 


oy ee er eed 


bb Welcome to the Vagrant Setup Wizard 


Ses Sik Weert etal Net er compe. Ch 
nit the Setup Wizard. ' 





w 1 accept the terms n the License Agreement 





mm 


Cs, eee 


几 次 单 击 之 后 ，Vagrant 将 会 安装 好 。 要 想 访 问 它 ， 需 要 打开 命令 


行 或 终端 。 
A.5.2 ”如何 访问 终端 
在 Windows 中 ， 可 以 按 下 Ctrl + Esc 或 Win 键 打开 应 用 菜单 ， 并 搜 


索 cmd 。 而 在 Mac 中 ， 可 以 按 下 Cmd + Space ， 并 搜索 terminal 。 上 述 
访问 方式 如 图 A.4 所 示 。 


Windows 


Ctrl ESC) ws Cmd+Space 


Terminal 






Search 


bash 
MacBook:~ lookfwd$ vagrant ssh 


MacBook:~ lookfwd$ 


图 A.4 


无 论 哪 种 情况 ， 我 们 都 得 到 了 一 个 控制 台 窗 口 ， 当 我 们 输 
Avagrant 时 ， 将 会 打印 出 一 些 说 明 。 这 就 是 我 们 现在 所 需要 做 的 所 有 
事情 。 


A.5.3 ”安装 VirtualBox 和 Git 


为 了 简化 该 步骤 ， 我 们 将 安装 Docker Toolbox， 在 其 中 已 经 包含 了 
Git 和 VirtualBox。 如 果 我 们 使 用 Google 搜 索 docker toolbox install ， 可 以 
找到 https://www.docker.com/ docker-toolbox ， 在 这 里 可 以 下 
载 适 用 于 我 们 操作 系统 的 版 本 。 安 装 过 程 像 Vagrant 一 样 简单 ， 如 图 A.5 
所 示 。 
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图 A.5 


A.5.4 确保 VirtualBox 支 持 64 位 镜像 


安装 好 Docker Toolbox 之 后 ， 可 以 在 Windows 柴 面 或 Mac 的 启动 器 
( 按 下 F4 打 开 〉 中 找到 VirtualBox 的 图 标 。 尺 早 检 查 VirtualBox 是 否 支 持 


64 位 镜像 非常 重要 ， 检 查 过 程 如 图 A.6 所 示 。 
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图 A.6 


打开 VirtualBox， 单 击 New 按钮 来 创建 一 个 新 的 虚拟 机 。 查 看 版 本 
下 拉 表 单 ， 检 查 其 中 的 选项 ， 然 后 单 击 Cancel 。 我 们 现在 还 不 需要 真正 
创建 一 个 虚拟 机 。 


Q 


如 果 下 拉 沫 单 中 包含 64 位 镜像 ， 那 么 我 们 可 以 跳 过 本 节 接 下 来 的 部 分 。 





如 果 下 拉 菜 单 中 没有 包含 64 位 镜像 ， 或 者 当 我 们 答 试 运行 一 个 64 位 
虚拟 机 时 得 到 类 似 VT-x/AMD-V hardware acceleration is notavailable 
on your system 的 错误 信息 的 话 ， 我 们 可 能 就 有 一 些 抹 烦 了 。 


这 意味 着 VirtualBox 无 法 检测 到 我 们 电脑 中 的 VIT-x 或 AMD-V 扩 展 。 
如 有 果 我 们 的 硬件 过 旧 ， 那 么 这 种 情况 是 合理 且 符 合 预 期 的 。 但 是 如 果 是 
新 人 硬件， 那么 很 可 能 是 由 于 这 些 扩展 在 BIOS 中 被 禁用 了。 如 果 我 们 使 
用 的 是 Windows 系 统 〈 很 大 可 能 ) ， 一 个 简单 的 方式 是 通过 名 为 
SecurAble 的 工具 进行 检查 ， 该 工具 可 以 从 https://www.grc.com/ 
securable.htm 中 下 载 。 如 果 Hardware Virtualization 为 红色 有 旦 提示 
为 No 的 话 ， 就 意味 着 我 们 的 CPU 不 文 持 必要 的 虚拟 扩展 。 在 这 种 情况 
下 ， 我 们 将 无 法 运行 VagranVDocker， 不 过 我 们 仍然 可 以 安装 Scrapy， 
并 且 使 用 在 线 网 站 (scrapybook.s3. amazonaws.com ) 作为 源 来 运 
行 这 些 示 例 。 我 们 可 以 从 第 4 章 中 的 爬虫 开始 使 用 ， 该 肘 虫 是 可 以 直接 
拿 来 使 用 的 ， 并 且 是 针对 在 线 网 站 构建 的 。 








如 果 Hardware Virtualization 为 绿色 ， 我 们 很 可 能 可 以 从 BIOS 中 局 
用 该 扩展 。 使 用 Google 搜 索 你 的 电脑 机 型 ， 以 及 如 何 变更 BIOS 中 关于 
VT-x 或 AMD-V 的 设置 。 通 党 情况 下 ， 我 们 可 以 在 重 局 时 按 下 东 个 按键 
以 访问 BIOS。 在 这 里 ， 我 们 需要 进入 安全 相关 的 荣 单 ， 然 后 局 
用 Virtualization Technology (VTx) 或 其 他 类 似 写 法 的 选项 。 重 局 过 
后 ， 我 们 将 能 够 从 该 计算 机 运行 64 位 的 虚拟 机 。 





A.5.5 在 Windows 中 局 用 ssh 客 户 端 


如 果 我 们 使 用 的 是 Mac， 将 不 需要 本 步 ， 可 以 直接 跳 到 下 一 市 中 。 
如 采 我 们 使 用 的 是 windows， 则 没有 提供 给 我 们 默认 的 ssh Zrii. 


运 的 是 ，Git 〈 我 们 刚才 安装 的 ) 有 一 个 ssh 客户 端 ， 我 们 可 以 通过 添加 
Windows Path 的 方式 激活 它 ， 如 图 A.7 所 示 。 











添加 
在 这 里 


i 
Computer Name | Hardware m X 
4 四 Remote settngs 
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1 @P Advanced system se 
‘ 


WUSERPROFILE % \AppData Local Temp 
HLISERPROFILE % \appData Local Temp 





图 A.7 


默认 情况 下 ，ssh 的 二 进 制 文 件 位 于 C:\Program 
Files\Git\usr\bin 中 (图 A.7 所 示 的 1 区 域 )。 我 们 需要 添 
加 C:\Program Files\Git\usr\bin 和 C:\Program 
Files\Git\bi` `n 到 路 径 当中 。 为 了 实现 该 目的 ， 我 们 需要 将 它们 复 
制 到 记事 本 中 ， 并 在 每 个 路 径 前 添加 ;来 连接 它们 《如 图 A.7 所 示 的 3 区 
WO o RAAR FTR: 








;C:\Program Files\Git\bin;C:\Program Files\Git\usr\bin 





现在 ， 按 下 Ctrl + Esc 或 Win tzi, JAFRE, AAJ tee 
Computer (计算机 〉 选项 。 右 键 单 击 它 (图 A.7 所 示 的 4 区 域 ， 并 选 
择 Properties( 属 性) 。 在 弹出 的 窗口 中 ， 选 择 Advanced System 
Settings (高 级 系统 设置 ) 。 然 后 ， 单 击 Environment Variables (环境 
变量 ) 。 这 里 是 我 们 用 于 编辑 Path 的 表单 。 单 击 Path 以 编辑 它 。 在 
Edit User Variable (HH RE) 对 话 框 中 ， 我 们 在 结尾 处 粘贴 在 
记事 本 中 连接 的 两 个 新 路 径 。 应 当 小 心 不 要 意外 上 履 盖 退 加 路 径 ;， 之 前 的 
任何 值 。 然 后 单 击 几 次 OK CHE) ， 退 出 所 有 对 话 框 ， 此 刻 必 备 软件 
已 经 全 部 安装 完毕 。 





A5.6 下载 本 书 代 码 并 创建 系统 

现在 ， 我 们 已 经 拥有 了 一 个 功能 齐全 的 Vagrant 系 统 ， 接 下 来 打开 
一 个 新 的 控制 台 / 终 端 /命令 行 〈 我 们 已 经 在 前 面 见 过 如 何 打 开 ) ， 输 入 
如 下 命令 ， 享 受 本 书 所 带 来 的 乐趣 。 


$ git clone https://github.com/scalingexcellence/scrapybook. git 


$ cd scrapybook 


$ vagrant up --no-parallel 





A6 系统 创建 与 操作 FAQ 





接 下 来 是 你 在 首次 使 用 Scrapy 工 作 时 可 能 过 到 的 问题 的 解决 方案 。 
A.6.1 我 应 该 下 载 什么 以 及 需要 花费 多 少时 间 


当 我 们 运行 vagrant up --no-parallel 之 后 ， 就 没有 那么 多 的 
可 见 度 了 。 所 经 过 的 时 间 与 我 们 的 下 载 速度 及 网 络 连 接 质 量 密切 相关 。 


图 A.8 所 示 为 当 网 络 连接 能 力 达到 每 秒 下 载 5SMB (38Mbit/s〉 内 容 时 的 期 
望 时 间 。 


9. a] dev, scrapyd* etc. 
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图 A.8 


如 果 我 们 使 用 的 是 Linux 环 境 ， 或 是 Docker 已 经 被 安装 好 ， 那 么 前 


三 步 就 不 是 必要 的 ， 这 样 可 以 为 我 们 节省 4 分 钟 的 时 间 以 及 450MB 的 下 
载 量 。 


请 注意 ， 上 述 所 有 步骤 只 与 用 于 下 载 全 部 内 容 的 vagrant up -- 


no-parallel 命令 的 第 一 次 运行 相关 。 后 续 运行 在 通常 情况 下 只 会 花 
费 不 到 10 秒 的 时 间 。 





A.6.2 ”如 果 Vagrant 无 法 响应 应 该 怎么 办 


可 能 会 有 很 多 原因 导致 Vagrant 无 法 响应 ， 我 们 所 需要 做 的 就 是 按 
下 Ctrl + C 两 次 从 中 退出 。 然 后 再 次 尝试 vagrant up --no-parallel 
， 此 时 应 当 能 够 恢复 。 我 们 可 能 需要 这 样 做 几 次 ， 这 取决 于 网 络 连接 的 
速度 和 质量 。 如 果 打 开 Windows Task Manager (Windows 任 务 管 理 
器 ) 或 Mac 的 Activity Monitor 〈 活 动 监视 器 ) ， 可 以 更 清晰 地 看 到 
Vagrant 下 在 做 什么 ， 如 图 A.9 所 示 。 








Windows Task Manager $ 


| File Options View Help 








Applications | Processes | Services | Performance | Network 







Local Area Connection 





Wireless Network Connection 


Packets out/sec; 








在 下 载 期 间或 之 后 不 超过 60 秒 的 短暂 无 法 响应 是 可 以 预期 的 ， 因 为 
此 时 软件 正在 进行 安装 。 而 更 长 时 间 的 无 法 响应 则 很 有 可 能 意味 着 出 现 
了 某 些 问题 。 











当 我 们 中 断后 再 恢复 时 ，vagrant up --no-parallel 可 能 会 执 
行 失败 ， 并 返回 类 似 下 面 所 述 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM... The forwarded 
port to 21 is already in use on the host machine. 


这 同样 是 一 个 临时 性 的 问题 。 如 果 我 们 再 次 运行 vagrant up -- 
no-parallel ， 则 应 该 能 够 成 功 恢复 。 


假设 我 们 见 到 了 如 下 的 失败 信息 。 


. Command: "docker" "ps" "-a" "-qg" "--no-trunc" 


Stderr: bash: line 2: docker: command not found 





如 打发 生 该 情况 ， 请 按照 下 一 个 问题 所 显示 的 方法 关闭 并 恢复 虚拟 
机 。 


A6.3 ”如何 快速 关闭 /恢复 虚拟 机 


当 使 用 虚拟 机 时 ， 最 快 的 关闭 方式 是 进入 节能 状态 ， 有 具体 来 说 就 是 
打开 VirtualBox， 选 择 虚 拟 机 ， 按 下 Ctrli+ V 或 Cmd + YY， 或 右键 单 击 荣 
单 并 选择 Save State ( 保存 状态 ) ， 如 图 A.10 所 示 。 
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图 A.10 


我 们 可 以 通过 运行 vagrant up --no-parallel 恢复 虚拟 机 。 开 
发 和 Spark 服 务 器 的 ~/book 目录 都 应 该 可 以 正常 工作 。 








A.6.4 如 何 完全 重 置 虚拟 机 


如 采 我 们 想 要 变更 核心 数量 、 内 存 大 小 或 虚拟 机 的 端口 映射 ， 则 需 
要 进行 完全 重 置 。 为 了 达到 该 目的 ， 我 们 仍然 需要 按照 前 一 个 答案 的 步 
骤 操 作 ， 不 过 现在 _ Off (关闭 电源 ) ， 或 者 按 下 Ctrl 
+ 于 或 Cmqd + 下。 我 们 也 能 通过 编程 方式 完成 此 事 ， 其 执行 语句 
是 vagrant global-status --prune 。 我 们 可 以 找到 名 为 “docker- 
provider” 的 虚拟 主机 的 ID 〈 比 如 95d1234) ， 然 后 使 用 vagrant halt 
停止 它 ， 比 如 vagrant halt 957d887 。 


然后 ， 可 以 使 用 vagrant up --no-parallel 重启 系统 。 不 过 很 
遗憾 的 是 ， 开 发 和 Spark 机 器 很 可 能 已 经 清空 了 其 ~/book Ak. HE 


决 该 问题 ， 可 以 运行 vagrant destroy -f dev spark ， 然 后 重新 运 
行 vagrant up --no-parallel 。 这 将 解决 此 类 问题 。 


A.6.5 如何 调 整 虚 拟 机 大 小 


我 们 可 能 想 要 改变 虚拟 机 的 大 小 ， 比 如 将 使 用 的 内 存 从 2GB 调 整 为 
1GB， 将 使 用 的 8 核 调整 为 4 核 。 我 们 可 以 通过 编辑 
Vagrantfile.dockerhost 的 vb.memory 及 vb.cpus 设置 来 进行 调 
整 。 然 后 ， 按 照 上 一 个 答案 的 流程 完全 重 置 虚拟 机 。 


A.6.6 ”如 何 解 决 端口 冲突 


有 时 ， 在 主机 上 运行 的 一 些 服务 可 能 占用 了 该 系统 需要 的 端口 。 首 
先 ， 请 注意 如 果 我 们 打开 了 这 两 个 机 器 的 Vagrantfile ， 请 移 除 其 中 
所 有 的 forwarded_port 语句 ， 按 照 后 面 讲 到 的 方法 重 置 ， 此 时 仍然 能 
ee 我 们 可 能 刚好 不 太 容 易 检 查 宿 主机 上 这 些 端 口 运 
行 的 服务 〈 通 常 通过 Web 浏 览 器 ) o 











也 就 是 说 ， 我 们 可 以 通过 重新 映射 冲突 端口 的 方式 更 适当 地 解决 冲 
。 让 我 们 使 用 Web 服 务 器 9312 端 口 的 冲突 作为 示例 。 根 据 我 们 运行 的 
ae ` 是 虚拟 机 ， 过 程 会 有 些许 不 同 。 


Linux 坏 境 使 用 原生 Docker 


该 问题 将 表现 为 如 下 所 示 的 错误 信息 


Stderr: Error: Cannot start container a22f...: failed to create 
endpoint web on network bridge: Error starting userland proxy: listen 


tcp @.0.0.0:9312: bind: address already in use 





打开 Dockerfile， 编 辑 Web 服 务 器 中 forwarded_port 语句 的 host 
值 。 之 后 ， 使 用 vagrant destroy web 销毁 Web 服 务 器 ， 并 通过 
vagrant up web 重 局， 如 有 果 问 题 肥 生 在 初始 化 加 载 阶 段 ， 则 使 
用 vagrant up --no-parallel 恢复 加 载 。 


Windows 或 Mac 环 境 使 用 虚拟 机 
此 时 ， 我 们 会 得 到 不 同 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM, since they 
would collide... The forwarded port to 9312 is already in use 


on the host machine... 





为 了 修复 该 问题 ， 我 们 需要 打开 Vagrantfile.dockerhost , *% 
除 已 有 的 包含 端口 号 的 行 。 然 后 在 下 面 添 加 目 定 义 端 口 转发 语句 ， 比 
如 : config.vm.network “forwarded_port”, guest: 9312, 
host: 9316 。 此 时 将 会 修改 为 使 用 9316 端 口 。 接 下 来 ， 按 照 * 如 何 完全 
重 置 虚 拟 机 ”这 一 问题 的 答案 流程 重 置 虚拟 机 ， 一 切 又 都 会 正常 工作 
T.e 


A.6.7 如何 隐藏 在 公司 代理 背后 工作 


有 一 些 简单 代理 和 TLS 拦 截 代理 。 简 单 代理 需要 我 们 在 请 求 到 达 互 
联网 之 前 ， 转 发 到 代理 服务 器 上 。 它 们 可 能 需要 权限 验证 ， 也 可 能 不 需 
要 ， 不 过 无 论 哪 种 情况 ， 我 们 需要 使 用 的 信息 就 是 URL， 该 URL 可 以 从 
我 们 的 开 部 门 获 取 到 。 它 大 概 形 如 
http://user:pass@proxy .com:8080/ 。 如 果 我 们 使 用 的 是 Linux， 
而 不 是 虚拟 机 ， 很 可 能 已 经 完全 正确 配置 ， 不 再 需要 进一步 的 调整 。 不 











过 如 果 我 们 使 用 的 是 虚拟 机 ， 则 需要 使 代理 服务 器 在 Vagrant、Docker 
provider VM、Ubuntu 的 APT 下 载 以 及 Docker 服 务 上 自身 都 应 当 可 用 。 上 所 有 
这 些 操作 都 已 经 在 Vagrantfile.dockerhost 中 进行 了 处 理 ， 我 们 只 
需要 移 除 定义 proxy_url 行 的 注释 ， 并 正确 设置 其 值 即 可 。 


假设 遇 到 了 如 下 的 SSL 相 关 的 问题 。 


SSL certificate problem: unable to get local issuer certificate 


If you'd like to turn off curl's verification of the certificate, use 
the -k (or --insecure) option. 





无 论 是 Vagrant 还 是 部 署 的 Docker， 我 们 都 很 可 能 需要 处 理 TLS 拦 截 
代理 的 问题 。 这 种 代理 则 在 以 一 种 “中 间 人 ”的 角色 监控 所 有 安全 和 不 安 
全 流量 。 它 们 代表 我 们 执行 https 请 求 ， 在 必要 时 验证 证 书 ; 而 我 们 执行 
到 它们 的 https 连 接 ， 验 证 它们 的 证 书 。 我 们 的 开 部 门 很 可 能 会 提供 给 我 
们 一 个 证 书 ， 通 常情 况 下 是 .crt 文件 的 形式 。 我 们 将 该 文件 的 副本 放 
到 本 书 主 目录 下 (Vagrantfile 所 在 的 目录 ) 。 接 下 来 ， 按 照 前 面 例 
子 设置 proxy_url ， 然 后 更 进一步 取消 挤 定 义 crt_filename 变量 所 在 
行 的 注释 ， 将 其 值 设 置 为 我 们 的 证 书 文件 的 名 称 。 





A6.8 ”如何 连接 Docker provider 虚 拟 机 


如 果 我 们 处 于 Linux 环 境 中 ， 并 且 没 有 使 用 虚拟 机 ， 那 么 我 们 的 机 
器 已 经 是 Docker provider， 此 时 无 需 做 任何 事情 。 如 果 我 们 使 用 的 是 虚 
拟 机 ， 那 么 可 以 通过 运行 vagrant global-status --prune 得 到 
Docker provider 的 ID， 然 后 找到 名 为 docker-provider 的 机 器 。 我 们 可 
以 在 Linux 或 Mac 环 境 中 ， 使 用 别名 的 方式 对 其 实现 自动 化 。 








$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider’ | awk '{print \$1}'" 





我 们 可 以 使 用 vagrant ssh <provider id> ， 或 者 在 已 设置 别名 
的 情况 下 使 用 vagrant ssh $(provider_id) 来 连接 Docker provider. 
在 这 里 是 Ubuntu Trusty 64 位 虚拟 机 。 


A.6.9 每 个 服务 器 使 用 了 多 少 CPU/ 内 存 


人 或 者 按照 前 一 个 答案 摘 述 的 方法 连接 
到 了 provider， 那 么 可 以 通过 docker stats ， 看 到 每 台独 立 Docker 容 器 
所 消耗 的 资源 ， 如 下 所 示 。 


$ docker ps --format "{{.Names}}" | xargs docker stats 








图 A.11 所 示 为 运行 第 11 章 代码 时 的 示例 输出 ， 此 时 是 Scrapyd 从 Web 
服务 器 集中 下 载 的 时 间 。 


CONTAINER MEM USAGE / LIMIT 
dev : 63.61 MB / 2.099 GB 
es : 295.1 MB / 2.099 GB 
mysql ; 54.3 MB / 2.099 GB 
redis 


scrapyd1 
scrapyd2 
scrapyd3 
spark 
web 








图 A.11 
A.6.10 ”如何 查 看 Docker 容 器 镜像 的 大 小 


如 果 我 们 使 用 了 原生 Docker， 或 者 按照 之 前 答案 中 看 到 的 方法 连接 
到 了 provider， 那 么 可 以 使 用 如 下 命令 查看 Docker 镜 像 大 小 。 





$ docker images 








本 书 的 容器 部 是 基于 一 个 镜像 ， 每 个 变 体 上 安装 的 其 他 软件 都 很 
少 。 因 此 ， 我 们 看 到 的 GB 级 的 大 小 是 虚拟 大 小 ， 而 不 是 真实 占用 的 磁 
盘 空 间 。 如 宁 我 们 想 要 奉 看 镜像 的 构建 层次 以 及 个 体 大 小 ， 可 以 为 很 长 
的 dockviz 命令 创建 一 个 别名 ， 然 后 按照 如 下 所 示 进 行使 用 。 





$ alias dockviz="docker run --rm -v /var/run/docker.sock:/var/run/docker. 


sock nate/dockviz" 


$ dockviz images -t 


pO 


A.6.11 当 Vagrant 无 法 啊 应 时 ， 如 何 重 置 系统 


即使 最 终 处 于 一 个 连 Vagrant 也 无 法 重 置 的 混乱 状态 ， 我 们 也 可 以 
对 系统 进行 完全 重 置 。 我 们 可 以 在 不 重 置 虚拟 主机 的 情况 下 做 到 这 一 
点 ， 妆 然 这 种 方式 需要 花费 一 些 时 间 来 完成 。 我 们 所 需要 做 的 就 是 连接 
到 docker provider 机 器 ， 强 行 停止 所 有 容器 ， 移 除 它们 的 镜像 ， 然 后 重 
局 Docker。 有 基体 命令 如 下 所 示 。 





$ docker stop $(docker ps -a -q) 


$ docker rm $(docker ps -a -q) 


$ sudo service docker restart 





也 可 以 使 用 如 下 命令 。 


$ docker rmi $(docker images -a | grep "<none>" | awk "{print $3}") 








我 们 使 用 这 种 方式 移 除了 下 载 的 所 有 Docker 层 内 容 ， 这 就 意味 着 下 
一 次 执行 vagrant up --no-parallel 时 将 会 花费 一 些 时 间 用 于 下 
载 。 


A.7 有 一 个 无 法 解决 的 问题 ， 怎 么 办 


J A 


我 们 可 以 随时 使 用 VirtualBox 以 及 从 osboxes.org ( 
http://www.osboxes.org/ubuntu/ ) 下 载 得 到 的 Ubuntu 
14.04.3 (Trusty Tahr) 镜像 ， 按 照 Linux 的 安装 过 程 操 作 。 代 码 将 会 完全 


运行 在 虚拟 机 里 。 我 们 唯一 会 忽略 的 事情 是 端口 转发 和 同步 文件 夹 ， 这 
意味 着 要 么 我 们 手动 设置 它们 


， 要 么 在 虚拟 机 中 进行 开发 。 





欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 编 
辑 策 划 团 队 ， 打 造 传统 出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平 合 ， 提 供 最 新 技术 资讯 ， 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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Bs Fests is] 多 
免费 电子 书 
Free eBook 
我 要 写 书 
Write for Us 
Python 机 器 学 习 一 一 预 。 贝 叶 斯 方法 : AER 机 器 学 习 项 目 开 发 实战 DOH Sae : 统计 建 模 
测 分 析 核 心算 法 与 见 叶 斯 推断 的 Python 学 习 法 近期 活动 


人 区 


购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 I 技术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 


下 载 资 源 








社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代 码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技 术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
Ho 





灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 傍 新 书 ， 社 区 提供 预 售 和 新 书 首 发 服务 ， 用 尸 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 





用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 + Mm 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


| EE 





购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 ” 即 可 享受 电子 书 8 折 优 惠 ( 本 优惠 券 只 可 使 用 一 
次 ) 。 



































纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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Wireshark 旦 当 阴 最 流行 的 网 络 包 分 析 工具 。 它 上 手 篇 单 ， 无需 培训 就 可 入 
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社区 里 还 可 以 做 什么 


提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 





写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 至 特 
色 服 务 。 


会 议 活动 早 知道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
AFA 


扫描 任意 二 维 码 都 能 找到 我 们 : 





异步 社区 














官方 微 博 





QQ 群 : 436746675 


社区 网 址 : www.epubit.com.cn 


异步 社区 


= 
H: 


官方 微 


官方 微 博 : @ 人 邮 录 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 长 咨 询 : contact@epubit.com.cn 


